องค์ประกอบของระบบ Data

CORALINE CO. LTD
2 min readOct 15, 2018

--

หลายคนสงสัยว่า หากจะเริ่มศึกษาการทำ Big Data Project ต้องเริ่มจากอะไร คำตอบ คือ ต้องเรียนรู้ก่อนว่า องค์ประกอบของระบบ Data คืออะไร เพราะแต่ละองค์ประกอบ มีองค์ความรู้ที่ไม่เหมือนกัน และต้องอาศัยทักษะของผู้เชี่ยวชาญที่แตกต่างกัน

จากภาพ จะเห็นได้ว่า องค์ประกอบของระบบ Data แบ่งออกเป็น 5 ส่วนด้วยกัน ได้แก่

1. Data Source แหล่งที่มาของข้อมูล

ซึ่งถือได้ว่าเป็นต้นน้ำ เป็นแหล่งกำเนิดของข้อมูล อาจจะเป็นระบบ โปรแกรม หรือจะเป็นมนุษย์เราที่สร้างให้เกิดข้อมูลขึ้นมา ทั้งนี้เมื่อได้ชื่อว่าเป็น Big Data แล้วข้อมูลต่างๆมักจะมาจากแหล่งข้อมูลที่หลากหลายนำพามาซึ่งความยากลำบากในการจัดการโครงสร้างหรือจัดเตรียมให้ข้อมูลที่นำมารวมกันนั้นมีความพร้อมใช้ต่อไป

2. Gateway ช่องทางการเชื่อมโยงข้อมูล

การเชื่อมโยงข้อมูลเป็นส่วนที่สำคัญมากและเป็นปัญหาใหญ่ในการทำ Big Data Project ต้องอาศัยทักษะของ Data Engineer ทั้งการเขียนโปรแกรมเองและใช้เครื่องมือที่มีอยู่มากมาย ทั้งนี้การจะออกแบบช่องทางการเชื่อมโยงข้อมูลได้อย่างสมบูรณ์แบบจำเป็นต้องทราบก่อนว่าจะนำข้อมูลใดไปทำอะไรต่อบ้างมิเช่นนั้นการสร้างช่องทางการเชื่อมที่ไม่มีเป้าหมายก็อาจเป็นการเสียเวลาโดยเปล่าประโยชน์

3. Storage แหล่งเก็บข้อมูล

แหล่งเก็บนี้ไม่ใช่แค่การเก็บข้อมูลจากแหล่งข้อมูล แต่เป็นการเก็บข้อมูลจากแหล่งข้อมูลหลายๆแหล่งเอามาไว้เพื่อรอการใช้งานซึ่งอาจจะเป็นที่พักข้อมูลให้พร้อมใช้ หรือจะเป็นแหล่งเก็บข้อมูลในอดีตก็เป็นได้

4. Analytics การวิเคราะห์ข้อมูล

ส่วนนี้เป็นหน้าที่หลักของ Data Scientist ซึ่งแบ่งงานออกเป็น 2 ลักษณะ คือการวิเคราะห์เบื้องต้นโดยการใช้วิธีทางสถิติหรือจะเป็นการวิเคราะห์เชิงลึกโดยการสร้าง Model แบบต่างๆรวมไปถึงการใช้ Machine Learning เพื่อให้ได้ผลลัพธ์เฉพาะจงเจาะในแต่ละปัญหาและแต่ละชุดข้อมูล

5. Result/Action การใช้ผลการวิเคราะห์ข้อมูล

ผลลัพธ์ที่ได้จากการวิเคราะห์สามารถนำไปใช้งานได้ 2 รูปแบบ คือ ออกเป็นรายงาน เพื่อให้ Data Analyst นำผลลัพธ์ที่ได้ไปใช้กับงานทางธุรกิจต่อไป หรือจะเป็นการนำไปกระทำเลยโดยที่ไม่ต้องมี “มนุษย์” คอยตรวจสอบ ซึ่งจำเป็นต้องมีการเขียนโปรแกรมเพิ่ม เพื่อให้มีการกระทำออกไป ที่เรียกว่า Artificial Intelligence

การที่จะเข้าใจส่วนประกอบทั้งหมดของ Big Data System ได้นั้นอาจต้องใช้เวลา เพราะในแต่ละส่วนค่อนข้างมีรายละเอียดมากมาย เช่นส่วนของการเชื่อมโยงข้อมูล สามารถใช้โปรแกรม ETL (Extract-Transform-Load) ได้ แต่โปรแกรม ETL ก็มีหลายแบบ ทั้งเป็นโปรแกรม Software หรือ เป็น Function หนึ่งใน Cloud Computing

ในส่วนของ Analytics เองก็เช่นกัน เฉพาะ Machine Learning ก็มี Algorithm มากมาย และยังต้องมีการปรับค่า Parameter อีกด้วย ไม่ร่วมไปถึงการออกแบบตัวแปร ว่าจะนำข้อมูลใดมาวิเคราะห์ เพื่อให้ได้ผลลัพธ์อะไรเรียกได้ว่าแค่ความรู้อย่างเดียวไม่ได้ ต้องมีประสบการณ์ในการระบุปัญหาและทักษะในการออกแบบการใช้ Model อีกด้วย

ดังนั้น การจะเข้าใจ Big Data Ecosystem ให้ได้ทั้งหมดค่อนข้างยากและต้องใช้เวลา แต่ไม่ใช่ว่าจะทำไม่ได้ ต้องวางเป้าหมายให้ชัดก่อนว่าที่ต้องการเข้าใจหมายถึงต้องการเข้าใจในภาพรวมหรือต้องการทำเองให้เป็นด้วย ถ้าเป็นข้อแรกการเข้าใจเพื่อให้รู้ว่าองค์ประกอบแต่ละส่วนทำงานอย่างไร ไม่ใช่เรื่องยากแต่ต้องแยกให้ออกว่าสิ่งที่เราต้องการรู้คือเรื่องอะไร แต่ถ้าเป็นข้อสองนั้นคือต้องการใช้เครื่องมือเป็นหรือต้องการเขียนโปรแกรมได้ต้องบอกว่าใช้เวลาพอสมควร

การเริ่มต้นทำ Big Data Project ที่ดี คือ การเข้าใจว่าปัญหาขององค์กรคืออะไร อยู่ ณ ส่วนใดขององค์ประกอบของระบบ Data บางที่มีปัญหาเรื่องไม่มีแหล่งที่มาของข้อมูล บางที่มีปัญหาไม่สามารถเชื่อมโยงข้อมูลได้ บางที่มีปัญหาไม่สามารถวิเคราะห์ได้ บางที่ไม่สามารถแสดงผลได้และหลายที่มีปัญหาที่ไม่รู้ว่าตัวเองมีปัญหาอะไร

Big Data อาจจะเป็นเรื่องยาก แต่ไม่ยากเกินไปที่จะเรียนรู้ ทุกการเรียนรู้ต้องการความสม่ำเสมอ และต้องใช้เวลา แต่ถ้าไม่เริ่ม ก็คงไม่มีวันที่ทำได้สำเร็จเสียที

Originally published at https://www.coraline.co.th

--

--

CORALINE CO. LTD
CORALINE CO. LTD

Written by CORALINE CO. LTD

We seek to be the acknowledged leader in Data Science & Operations Research in searching for new solutions and bringing customer’s big data into real action.

No responses yet