6 อุปนิสัยของนักวิทยาศาสตร์ข้อมูล
กว่าจะออกมาเป็น Data Scientist
ต้องผ่านการเรียนรู้มาตั้งแต่พื้นฐานเลข สถิติ ความน่าจะเป็น ไปจนถึงการเขียนโปรแกรม แต่อย่างไรก็ตาม ในปัจจุบันนี้จะมีเทคโนโลยีใหม่ๆ ออกมาช่วยในการทำงานการโมเดลข้อมูลต่างๆ สามารถถูกออกแบบและจัดการได้ง่ายขึ้น จากเดิมที่ต้อง run ด้วยภาษา C ใช้ MATLAB เปลี่ยนมาเป็นเทรนเขียนโปรแกรมด้วย Python หรือ R จนล่าสุด Google ได้ปล่อย TensorFlow ออกมาทำหน้าที่เป็น Machine Learning ตัวใหม่ที่น่าสนใจ และว่ากันว่าใช้งานง่ายอีกด้วย แบบนี้แล้วอาชีพ Data Scientist จึงเป็นอาชีพที่ต้องอาศัยการตื่นตัวอยู่ตลอดเวลา ซึ่งการเป็น Data Scientist ที่ประสบความสำเร็จนั้น ควรมีอุปนิสัยดังต่อไปนี้
1. ช่างสังเกต และชอบตั้งคำถาม
พร้อมกับการหาคำตอบด้วยเหตุผลที่เป็นข้อมูลData Scientist จะมองทุกอย่างเป็นคำถาม และสร้างตารางเปรียบเทียบคำตอบนั้นๆ โดยใช้ข้อมูลหรือตัวเลข เป็นตัวตัดสินใจในการหาคำตอบตัวอย่างง่ายๆ เช่น หากจะเดินทางจากแจ้งวัฒนะไปบางนา มีเส้นทางไหนให้เลือก แต่ละทางใช้เวลาเดินทางเท่าไร มีค่าใช้จ่ายอย่างไร สภาพถนนคล่องตัวหรือไม่ เป็นต้น หรือแม้กระทั่งสิ่งรอบตัวที่ไม่เกี่ยวข้องกับการตัดสินใจ ก็เป็นปัญหาสนุกๆให้ Data Scientist ได้ เช่น การวางผังเมือง สภาพเศรษฐกิจ หรือแม้กระทั่งการเลือกตั้งของประเทศอเมริกา ที่มีการใช้ Big data อธิบายเหตุผลของการเลือกตั้ง โดยอาศัยข้อมูลประชากร เช่น เชื้อชาติ อายุ เพศ อาชีพ ฐานเงินเดือน เป็นต้น
2. ชอบติดตามข่าวสาร และเทคโนโลยีใหม่ๆ
เพราะเทคโนโลยี ไม่เคยหลับ หรือหยุดนิ่ง หากไม่รู้จัก Update ตัวเอง ก็จะกลายเป็น Technician ที่ล้าหลัง ทั้งนี้งานหลักของ Data Scientist นอกจากจะเป็นนักวิเคราะห์แล้ว ยังมีหน้าที่เป็นนักออกแบบ Innovation อีกด้วย ข่าวสารต่างๆ จึงเป็นเหมือนตัวแปรที่เข้ามามีส่วนในการพัฒนาโมเดลต่างๆ ให้ครอบคลุมมากขึ้น
3. ไม่เกี่ยงการในการเลือกใช้ Tool
นอกจากโปรแกรมภาษามากมายให้เหล่า Data Scientist ได้เลือกใช้แล้ว แต่ละ Algorithm ก็หลากหลาย อีกด้วย ยังไม่รวมไปถึง Parameter set up และ Dataset ที่แสนเยอะจนน่าปวดหัวทำให้การเป็น Data Scientist ที่ดี จึงเป็นคนที่ไม่ยึดติดอยู่กับเครื่องมือใด เครื่องมือหนึ่ง ไม่ว่าจะเป็น R Python Matlab SAS หรือแม้กระทั่ง Excel เพราะแต่ละปัญหาอาจจะถูกออกแบบ และแก้ไขได้หลายแบบ ซึ่งต้องทดสอบหลายครั้ง จนกว่าจะหาโมเดลที่เหมาะสมที่สุด
4. การสื่อสาร หรือ Storytelling
จุดบอดของนักวิจัย หรือ Technician คือ การอธิบายหลักการยากๆ หรือผลงานออกมาให้บุคคลภายนอกที่ไม่มีพื้นฐานเชิงเทคนิคให้เข้าใจผลลัพธ์หรือความสำคัญของโมเดล บางครั้งกว่าจะได้โมเดลออกมาต้องผ่านการค้นคว้าวิจัย หรือทำการบ้านมาอย่างหนัก แต่ถ้าหากไม่สามารถนำเสนอผลงาน หรือขายให้ฝ่ายธุรกิจเห็นรูปธรรมได้ สิ่งที่อุตส่าห์ทุ่มเทมานั้น อาจจะเสียเปล่าได้ ดังนั้นนอกจากจะต้องเป็นผู้เชี่ยวชาญด้านข้อมูลแล้ว ยังต้องให้ความสำคัญกับวิชาอื่นๆ ที่เกี่ยวข้องอีกด้วย ไม่ว่าจะเป็น Marketing หรือ Business Communicationเป็นต้น
5. ไม่กลัวความผิดพลาด แต่กล้าที่จะมองหาทางออกของความผิดพลาด
Error เป็นสิ่งที่มาคู่กับการทำโมเดล หรือ แม้กระทั่งการทำ Forecasting เพราะเรากำลังมองไปยังอนาคต ปกติแล้วการทำ Predicting Model จะนำข้อมูลเก่าขนาดใหญ่มาใช้เป็นต้นแบบ และนักวิจัยมักจะเลือกโมเดลที่ให้ค่า Error น้อยที่สุด แต่ต้องไม่ลืมว่า Error นั้นก็มีความสำคัญ ซึ่งเมื่อโมเดลถูกนำไปใช้จริง อาจจำเป็นต้องมีข้อกำหนดเพื่อจัดการError นั้นต่อไป
6. ไม่ย่อท้อต่ออุปสรรค
อุปสรรคสำคัญของการทำโมเดลข้อมูล คือ เวลาทุกขั้นตอนของการทำโมเดลนั้นต่างต้องใช้เวลานาน ตั้งแต่ Business Understanding, Data Understanding, Data Cleansing, Data Modeling, Model Evaluation, Implementationโดยเฉพาะ การ Clean ข้อมูล เนื่องจากข้อมูลที่ใช้เป็น Big Data ซึ่งต้องใช้พลังในการจัดการข้อมูลสูง และการโมเดลแต่ละครั้งก็ใช้เวลานาน สำหรับData Scientist ที่ดีมักจะสร้างโมเดลหลายๆ ตัวเพื่อใช้ประกอบการตัดสินใจเลือกว่าโมเดลไหนเหมาะสมสำหรับการนำไปใช้งานจริง ทั้งหมดทั้งมวล ต้องอาศัยความทุ่มเท และความคิดสร้างสรรค์ที่อยู่ภายใต้ความกดดันจากธุรกิจ
#BigData
#DataScience
#Optimization
#ProductivityImprovement
#Coraline ให้คำปรึกษาการทำ Data Science and Data Modeling เพื่อเพิ่มศักยภาพของธุรกิจ