สถิติเบื้องต้นง่ายๆ ที่จะทำให้คุณเข้าใจการวิเคราะห์มากขึ้น (ตอนที่ 1)

CORALINE CO. LTD
3 min readNov 26, 2017

--

Basic Statistic

Data driven Business หรือ กลยุทธ์ทางธุรกิจที่ใช้ข้อมูลในการตัดสินใจ กำลังมาแรงทำให้ตำแหน่งงานที่ถูกพูดถึงมากที่สุดตำแหน่งหนึ่ง คือ Business Analyst หรือ Data Analyst ซึ่งในความเป็นจริง ทุกคนสามารถทำงานตำแหน่งนี้ได้หมด ไม่ว่าคุณจะสำเร็จการศึกษามาด้านใด เพียงแค่คุณใช้ทักษะด้านคณิตศาสตร์ และสถิติให้เป็นประโยชน์ได้ คุณก็จะเติบโตได้อย่างรวดเร็ว

ทำไมการใช้ข้อมูลมาเล่าเรื่องราวถึงดูมีพลัง นั้นเพราะมันแสดงให้เห็นถึงความใส่ใจในการนำเสนอ และยังใช้โน้มน้าวจิตใจคนฟังได้ดีอีกด้วย เช่น “กว่า 80% ของผู้ใช้บริการ มีความถึงพอใจในสินค้า” ในที่นี้ 80% กำลังบอกว่า 80 คน ใน 100 คน พอใจ ซึ่งเป็นคนหมู่มากนั้นเอง

1. ประชากร กับ ตัวอย่าง

  • Population คือ ประชากร หรือ ข้อมูลทั้งหมด (หรือขนาดใหญ่) ของสิ่งที่เรากำลังสนใจ เช่น นักเรียนทั้งหมด ลูกค้าทั้งหมด สิ้นค้าทั้งหมด เป็นต้น
  • Sample คือ ข้อมูลส่วนหนึ่งจากประชากรที่เรานำมาใช้วิเคราะห์

สิ่งที่สำคัญในส่วนนี้ คือ จำนวน Sample ที่เราดึงมาใช้นั้น มีจำนวนและความหลากหลายมากพอที่จะเป็นตัวแทนของประชากรทั้งหมดหรือไม่ เช่น หากจะวิเคราะห์ปัจจัยในการเกิดโรคไข้หวัดใหญ่ของคนไทย ที่มีประชากร 80 ล้านคน เราควรศึกษากลุ่มตัวอย่างปริมาณกี่คน จากภูมิภาคไหน อายุเท่าไหร่ อาชีพอะไร และมีกิจกรรมในชีวิตประจำวันอย่างไรบ้าง ซึ่งคำถามทั้งหมดนี้ ไม่มีคำตอบที่ชัดเจน เพียงแต่นักวิเคราะห์ต้องสามารถหาเหตุผลมาตอบเพื่อให้กลุ่มตัวอย่างที่นำมาวิเคราะห์มีน้ำหนักชัดเจนพอ

Population and Sample

2.ค่ากลาง และการเบี่ยงเบน

- Mean หรือ ค่าเฉลี่ย คิดจากผลรวมของค่าทั้งหมดหารด้วยจำนวนข้อมูล เช่น

9, 3, 1, 8, 3, 6

ค่าเฉลี่ย = (9 + 3 + 1 + 8 + 3 + 6) / 6 = 5

- Median หรือ มัธยฐาน คือ ตัวอย่างที่อยู่ตำแหน่งกลางของชุดข้อมูล เมื่อมีการเรียงข้อมูลจากน้อยไปมาก เช่น

9, 3, 1, 8, 3, 6

จัดเรียงเป็น 1, 3, 3, 6, 8, 9 มีมัธยฐานคือค่าระหว่าง 3 กับ 6 ได้แก่ 4.5

- Mode หรือ ฐานนิยม คือ ตัวเลขที่เกิดมาที่สุดในชุดจำนวน เช่น

9, 3, 1, 8, 3, 6

ฐานนิยม คือ 3

Range หรือ พิสัย คือความแตกต่างระหว่างข้อมูลที่มีค่าสูงสุด และ ต่ำสุด เข่น

9, 3, 1, 8, 3, 6

พิสัย คือ 9–1 =8

Variance หรือ ค่าแปรปวน
ใช้เพื่อวัดการกระจายของข้อมูลคิดจากค่าเฉลี่ยของความต่างจากค่าเฉลี่ยยกกำลัง 2

Standard deviation หรือ ค่าเบี่ยงเบนมาตรฐาน
เพื่อดูการกระจายข้อมูลจากค่าเฉลี่ย คือ รากที่ 2 ของค่าแปรปวน

Variance and Standard Deviation

……แล้ว Variance กับ Standard deviation ใช้งานต่างกันอย่างไร เพื่อให้เข้าใจง่ายๆ ขอเสนอตัวอย่างดังนี้

วัดความสูงของ

นาย A = 190 เมตร
นาย B = 160 เมตร
นาย C = 175 เมตร
นาย D = 150 เมตร
นาย E = 155 เมตร

Example

…จากตัวอย่างนี้ เราจะเห็นว่าค่าแปรปวนจะเป็นตัวเลขที่กว้างกว่าค่าเบี่ยงเบนมาตรฐาน เวลาใช้งานจริงค่าเบี่ยงเบนมาตรฐานจะใช้อธิบายความเบี่ยงเบนที่ออกมาจากค่ากลาง หรือ ค่าเฉลี่ย เพื่อให้เห็นภาพว่า ชุดข้อมูลนั้นๆ มีการกระจายตัวอย่างไรในขณะที่ค่าแปรปวนจะเป็นภาพกว้างทั้งหมดจึงมักใช้การพิสูจน์หลักการทางสถิติมากกว่า เช่น การคำนวณค่าความเสี่ยง หรือ Value at Risk เป็นต้น

มาขยายความเข้าใจเรื่องค่าเบี่ยงเบนกันอีกสักนิด เมื่อดูกราฟข้างล่างนี้

พบว่า กราฟรูป A B C จะมีความกว้างของฐานไม่เท่ากัน นั้นเพราะเขามีค่าแปรปวนไม่เท่ากันนั้นเอง

Z-Score หรือ คะแนนมาตรฐาน

Z คือ การทำ standardized ของชุดข้อมูลเพื่อทำให้ข้อมูลอยู่ในรูปแบบที่เป็นมาตรฐานเดียวกัน

คือ มีค่าเฉลี่ย = 0 และค่าเบี่ยงเบนมาตรฐาน = 1 โดยมีสูตรในการคิดคือ

Z-Score Equation

…คราวนี้เรากลับมาดูที่กราฟรูประฆังคว่ำกันอีกครั้ง ในการทำงานจริง

Standard Normal Distribution

….กราฟนี้จะเป็นกราฟที่ถูกใช้งานบ่อย ไม่ว่าจะเป็นตัวที่ใช้อธิบาย Outlier หรือ การให้เกรดนักศึกษา ตัวอย่างเช่น

คะแนนส่วนใหญ่ 95% คือ คะแนนระหว่าง -2SD ถึง 2SD ดังนั้น
หากคะแนนเฉลี่ยของนักเรียน = 55และมีค่าเบี่ยงเบนมาตรฐาน = 7
หมายความว่า คะแนนของนักเรียนส่วนใหญ่ 95% จะอยู่ที่ 41–69 คะแนน
นั้นคือ นักเรียนที่คำแนนต่ำกว่า 41 คือ นักเรียนคะแนนน้อย 5% แรก
และนักเรียนที่มีคะแนนสูงกว่า 69 เป็นต้นไป คือ นักเรียน Top คลาส
ที่มีเปอร์เซ็นไทล์ ที่ 95% เป็นต้นไป
โดยส่วนใหญ่แล้ว ค่า Z จะมีค่าอยู่ระหว่าง -3 ถึง +3
ส่วนค่าที่อยู่นอกเหนือจากช่วงดังกล่าว จะเกิดขึ้นได้ยากมาก

Example

….สถิติข้างต้นนี้ แม้มันอาจจะเป็นพื้นฐาน แต่ในการทำงานจริง ไม่ว่าจะเป็นค่าเฉลี่ย ค่าเบี่ยงเบน หรือ แม้แต่กราฟ Normal Distribution มักถูกนำมาใช้ในทุกๆ ขั้นตอนของการทำ Big Data ไม่ว่าจะใช้เป็นกฎเพื่อ Clean ข้อมูล หรือใช้ Analysis วิเคราะห์ปัญหา และแนวโน้มของข้อมูล เพราะฉะนั้น สถิติเบื้องต้นต่างๆ นี้ จึงเป็นสิ่งจำเป็นที่ Data Expert ต้องเข้าใจ และนำมาใช้งานให้ถูกต้อง อย่างหลีกเลี่ยงไม่ได้

#BigData
#DataScience
#Optimization
#ProductivityImprovement
#Coraline ให้คำปรึกษาการทำ Data Science and Data Modeling
เพื่อเพิ่มศักยภาพของธุรกิจ

--

--

CORALINE CO. LTD

We seek to be the acknowledged leader in Data Science & Operations Research in searching for new solutions and bringing customer’s big data into real action.