ช่องว่างระหว่าง Generation ของ Data Engineer

ช่องว่างระหว่าง Generation ของ Data Engineer

Data Engineer เป็นอาชีพที่เราเพิ่งเคยได้ยินเมื่อไม่นานมานี้ แต่แท้จริงแล้วพื้นฐานของการเป็น Data Engineer มาจากการบริหาร Database แต่เมื่อชุดข้อมูลเปลี่ยนไปเป็น Big Data ที่มีการเชื่อมโยงข้อมูลจากหลายแหล่งรวมกัน ทำให้งานของ Data Engineer จึงมีความท้าทายมากขึ้นโดยทำหน้าที่ออกแบบ Data Pipeline ตั้งแต่ต้นน้ำไปถึงปลายน้ำ

Generation แรกของการเป็น Data Engineer คือ Data Administrator หรือผู้ดูแลระบบข้อมูลทำหน้าที่ Query ข้อมูลและส่งมอบข้อมูลให้ผู้ที่ต้องการใช้ ซึ่งการจะ Query ได้ก็จำเป็นต้องรู้จักคำสั่งพื้นฐานของโปรแกรมและมีความรู้เรื่องการจัดการ Database

อย่างไรก็ตามการเป็น Data Admin อาจจะไม่จำเป็นต้องออกแบบระบบซึ่งหากเป็นชุดข้อมูลขนาดเล็กอาจจะใช้เป็น Microsoft Excel หรือ Microsoft Access เป็นโปรแกรมในการบริหาร Database ก็เป็นได้

Generation ต่อมาคือการเป็น IT ซึ่งส่วนใหญ่จะเป็น IT Support ของระบบใดระบบหนึ่ง เช่น ผู้ดูแลระบบ ERP จะเข้าใจโครงสร้างข้อมูลที่อยู่ใน ERP แต่ไม่ใช่ผู้ออกแบบการเชื่อมโยงข้อมูลในระบบ IT ที่มีความสามารถด้าน Database ส่วนใหญ่จะสามารถใช้ SQL ได้ แต่ส่วนใหญ่จะถนัดใช้ SQL ตัวใดตัวหนึ่ง เช่น MySQL, SQL Server เป็นต้น

Generation ล่าสุดคือการเป็นนักออกแบบระบบ Data Management โดยสามารถออกแบบ Pipeline และเลือกใช้ข้อมูลที่เหมาะสมจึงได้ชื่อว่าาเป็น Data Engineer

การเลือกใช้ข้อมูลควรเน้นที่ความ Flexible และตอบโจทย์ อย่าง SQL เองก็มีให้เลือกหลายค่ายหรือแม้แต่ Cloud Computing เองก็มี Data Warehouse ให้เลือกใช้หลายรูปแบบ Data Engineer จะต้องสามารถวิเคราะห์และเลือกใช้เครื่องมือที่เหมาะกับขนาดของข้อมูล อัตราการเติบโตของข้อมูล และแนวทางการนำไปใช้

ช่งว่างระหว่าง Generation ของ Data Engineer ไม่ได้เกิดจากการศึกษาเพราะโดยพื้นฐานแล้ว Database ยังคงเป็นพื้นฐานสำคัญของการเป็น Data Engineer และมีวิชา Database ร่ำเรียนกันมาหลายปีแล้ว แต่ช่องว่างเกิดจากความเคยชินในเครื่องมือที่ใช้ทำให้คนที่เป็น Data Admin หรือ IT ไม่สามารถปรับตัวได้

เหตุที่เป็นเช่นนั้นเพราะเมื่อยุคสมัยเปลี่ยนแปลงไปมีเทคโนโลยีการบริหารข้อมูลเกิดขึ้นตลอดเวลาโดยแต่ละเครื่องมือ มี Life Cycle ต่ำลง การลงทุนจัดซื้อเครื่องมือในระยะยาว (เช่น 5 ปี) คงไม่เหมาะสมอีกต่อไป การใช้เครื่องมือจึงควรเน้นที่ความยืดหยุ่นและสามารถปรับเปลี่ยนได้ อีกทั้งยังมีเครื่องมือใหม่ๆที่เป็น Open Source อีกด้วย ทำให้สามารถลดค่าใช้จ่ายได้ License ไปได้

นอกจากนี้ในยุคก่อนการลงระบบจะเน้นที่การลงระบบใดระบบหนึ่ง ต่อมาเมื่อมีการลงระบบอื่นเพิ่มจะไม่ได้คำนึงถึงการนำข้อมูลจาก 2 ระบบมาเชื่อมโยงกันมากนัก แต่ปัจจุบันการนำข้อมูลจากแหล่งต่างๆมาเชื่อมโยงเพื่อใช้งานจะเป็นการใช้ประโยชน์จากข้อมูลได้มากกว่า

ช่องว่างของ Data Engineer เป็นเรื่องใหญ่มากเพราะ Data Management ต้องเกิดก่อนที่จะนำไป Analytics และควรเกิดก่อนที่จะมี Application ด้วยซ้ำไป จะพึ่งพาเด็กรุ่นใหม่ก็คงไม่ทันเพราะเด็กรุ่นใหญ่ยังขาดประสบการณ์หน้างานและไม่สามารถตัดสินใจในโครงการใหญ่ได้

วิธีแก้ที่ดีที่สุดคือการ Reskill/ Upskill และมี CTO (Chief Technology Officer) ที่เก่งพอที่จะมี Direction ที่ชัดเจนเพื่อผลักดันให้คน IT ปรับตัว เกิดเป็น Data Engineer Team ที่มีคุณภาพต่อไป

ทั้งนี้โครงการบางโครงการสามารถพิจารณาจัดจ้าง Vendor ข้างนอกเพื่อจัดทำโครงการ Data Management ได้ เพราะ Vendor จะมีความเชี่ยวชาญในการออกแบบระบบมากกว่า ในกรณีนี้ จะช่วยให้สามารถประหยัดเวลาในการพัฒนาโครงการได้มากกว่า

หากสนใจดำเนินโครงการ Data Management สามารถติดต่อทีมงาน Coraline ได้ที่

Email: inquiry@coraline.co.th

Tel: 099–425–5398

#BigData #DataScience #Optimization #ProductivityImprovement #DigitalTransformation #MachineLearning #ArtificialIntelligence #DataManangement #DataGovernance #DataQuality #DeepLearning #Coraline

We seek to be the acknowledged leader in Data Science & Operations Research in searching for new solutions and bringing customer’s big data into real action.