สถิติเบื้องต้นง่ายๆ ที่จะทำให้คุณเข้าใจการวิเคราะห์มากขึ้น (ตอนที่ 2)

CORALINE CO. LTD
3 min readDec 3, 2017

--

Basic Statistical — Chapter 2

หลังจากทำความรู้จักกับค่ากลาง ค่าเบี่ยงเบน และรูปแบบการกระจายของข้อมูลไปแล้ว วันนี้เรามาทำความรู้จัก “ความสัมพันธ์” ของตัวแปรกันต่อ เริ่มจาก

1. Correlation หรือ ค่าสหสัมพันธ์

เป็นการดูทิศทางความสัมพันธ์ระหว่างตัวแปร 2 ตัว โดยมี Correlation Coefficient (r) หรือ ค่าสัมประสิทธิ์สหสัมพันธ์ เป็นตัวบ่งชี้ถึงความสัมพันธ์นี้ ซึ่งค่าสัมประสิทธิ์สหสัมพันธ์นี้จะมีค่าอยู่ระหว่าง -1.0 ถึง +1.0 ซึ่งหากมีค่าใกล้ -1.0 นั้นหมายความว่าตัวแปรทั้งสองตัวมีความสัมพันธ์กันอย่างมากในเชิงตรงกันข้าม หากมีค่าใกล้ +1.0 นั้นหมายความว่า ตัวแปรทั้งสองมีความสัมพันธ์กันโดยตรงอย่างมาก และหากมีค่าเป็น 0 นั้นหมายความว่า ตัวแปรทั้งสองตัวไม่มีความสัมพันธ์ต่อกัน

Coefficient of Correlation

ทั้งนี้ การที่ตัวแปรทั้งสองตัวมีค่าสหสัมพันธ์แสดงออกถึงความสัมพันธ์กันนั้น หมายความว่า ตัวแปรทั้งสองมีแนวโน้มจะไปในทางเดียวกัน แต่อย่างไรก็ตาม ไม่ได้หมายความว่าตัวแปรทั้งสองนั้นเป็นปัจจัย หรือเป็นเหตุผลของกันและกัน ทั้งนี้จึงต้องนำไปวิเคราะห์ในเชิง Regression ต่อไป

ตัวอย่างเช่น หุ้น A กับ หุ้น B ที่มีแนวโน้มขึ้นลงไปในทางเดียวกัน และมีค่า Correlation Coefficient (r) หรือ ค่าสัมประสิทธิ์สหสัมพันธ์ สูงถึง 0.93 แต่ไม่ได้หมายความว่า หุ้น A จะมีมูลค่าเป็นจำนวนเท่าของหุ้น B เป็นต้น

Sample : Correlation

2. Linear Regression หรือ การวิเคราะห์การถดถอย

เป็นการศึกษาความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไป ซึ่งได้แก่ตัว ประมาณการ (Predictor, X) และตัวตอบสนอง (Response, y) โดยเป็นความสัมพันธ์แบบเชิงเส้น (Linear) ทั้งนี้ในขั้นตอนการทำ Regression ต้องมีการเก็บจำนวน Sample space จำนวนมากพอ นั้นคือ มี x และ y ที่มีความสัมพันธ์กันหลายๆ ครั้ง เพื่อนำมาหาสมการความสัมพันธ์

ตัวอย่างแรก ขอเสนอ Simple Linear Regression

Simple Linear Regression

จะเห็นได้ว่า ในกราฟ มีจุดหลายจุด นั้นคือ จุดที่บ่งบอกว่า เมื่อ x มีค่าจำนวนหนึ่ง จะส่งผลให้ y มีค่าจำนวนหนึ่ง ดังนั้น จำนวนจุดจึงมีผลสำคัญต่อการทำ Regression

สมการ และกราฟข้างต้นเป็น Regression ที่คุ้นหน้าคุ้นตาเรากันดี และเชื่อว่าหลายท่านก็ใช้งานสมการนี้อยู่ทุกวัน ไม่ว่าจะเป็นการเทียบบัญญัติไตรยาง เช่น

ไข่ 10 ฟอง ราคา 38 บาท ไข่ 50 ฟอง ราคา 3.8 x 50 = 190 บาท เป็นต้น

นอกจากการซื้อของทั่วไปแล้ว สมการความเร็วรถก็เป็น Simple Linear Regression อีกด้วย นั้นคือ ระยะทาง = ความเร็ว x เวลา

อย่างไรก็ตาม การ Regression อาจมีค่าคลาดเคลื่อนได้ และเมื่อมีค่าประมาณการ (Predictor) มีมากกว่า 1 ตัว จะเรียกว่า Multiple Linear Regression โดยมีรูปแบบสมการดังนี้

Multiple Linear Regression

โดยที่ คือ Coefficient หรือ ค่าสัมประสิทธิ์ของค่าประมาณการตัวนั้นๆ

พอเริ่มมีตัวแปรหลายตัว วิธีการทำ Multiple Linear Regression ก็ดูเหมือนจะยากขึ้นแล้ว ดังนั้นจึงต้องอาศัยเครื่องไม้เครื่องมือต่างๆ เข้ามาช่วยแก้ปัญหา ซึ่ง เครื่องมือที่ง่ายที่สุด คือ Microsoft Excel

วิธีการ คือ ใช้ Tool ที่เรียกว่า Analysis ToolPak

….ในการทำงานจริง ประสบการณ์จะสะสมให้เราเข้าใจมากขึ้นว่างานแบบไหนจะเหมาะกับการใช้ Linear Regression ซึ่งเมื่อระบบมีความซับซ้อนมากขึ้น Linear Regression อาจจะไม่ตอบโจทย์ ก็สามารถพิจารณาใช้การ Regression แบบอื่นๆ ได้ ทั้งนี้ Linear Regression ถือเป็นพื้นฐานที่สำคัญของการทำ Algorithm ประเภท Regression ทุกตัว หากเราทำความเข้าใจจุดนี้ให้แน่นพอแล้ว ก็จะเป็นพื้นฐานที่ดีให้เข้าใจ Regression ส่วนอื่นๆ ต่อไปด้วย

….การ Regression เป็นการหาความสัมพันธ์ ในปัจจุบัน เป็นโมเดลที่ถูกใช้งานในทุกวงการ ไม่ว่าจะเป็นการพยากรณ์อากาศ หรือ การทำนายปริมาณ Demand เพื่อวางแผนระบบ supply chain เป็นต้น อย่างไรก็ตาม ค่าบ่งบอกต่างๆ ไม่ว่าจะเป็น R-square หรือ P-value จะมีที่มาที่ไป อื่นๆ ให้ได้เรียนรู้ต่อ

….บทความนี้มีความต้องการอธิบายหลักสถิติอย่างง่ายๆ เพื่อให้เห็นภาพการใช้งาน ซึ่งอาจไม่ได้ลงรายละเอียดมากนัก เหมาะสำหรับบุคคลที่กำลังสงสัยวิธีการใช้งาน บุคคลที่มีพื้นฐานแน่นอยู่แล้ว หรือต้องการหามุมมองการใช้งานจริงเพื่อเสริมความเข้าใจ

….การจะเป็นนักวิเคราะห์ หรือนักสร้างโมเดลคณิตศาสตร์ที่ดี ต้องมีพื้นฐานทางสถิติ และความน่าจะเป็นที่แน่นพอ เพราะความรู้เหล่านี้ จะเป็นรากฐานของเหตุผลในการอธิบายที่มาที่ไปของโมเดล และสามารถนำไปต่อยอดโดยการสร้าง Machine Learning ได้ ถึงแม้ว่าปัจจุบันจะมี Library หรือ Tool ต่างๆ ที่ทำให้การวิเคราะห์ และการสร้างโมเดลเกิดขึ้นได้ง่ายขึ้น แต่ในขั้นตอนการเลือกโมเดล หรือ การอธิบายการเปลี่ยนแปลงต่างๆ ที่เกิดจากการใช้โมเดลก็ยังจำเป็นต้องใช้หลักพื้นฐานทางคณิตศาสตร์ สถิติ และความน่าจะเป็นมาเป็นเหตุผลหลัก ดังนั้นพื้นฐานแน่น จึงเป็นรากฐานที่ดีของการพัฒนา และเติบโตต่อไป

#BigData
#DataScience
#Optimization
#ProductivityImprovement
#Coraline ให้คำปรึกษาการทำ Data Science and Data Modeling เพื่อเพิ่มศักยภาพของธุรกิจ

--

--

CORALINE CO. LTD

We seek to be the acknowledged leader in Data Science & Operations Research in searching for new solutions and bringing customer’s big data into real action.

More from CORALINE CO. LTD