Big Data และ Data Science คืออะไร ทีมต้องมีใครบ้าง มีข้อมูลอยู่จะเริ่มอย่างไร

Source: Deep Learning on Medium

Big Data และ Data Science คืออะไร ทีมต้องมีใครบ้าง มีข้อมูลอยู่จะเริ่มอย่างไร

Big Data คือข้อมูลที่มีปริมาณมาก มีความหลากหลาย และมีขนาดเพิ่มขึ้นอย่างรวดเร็ว การจะนำข้อมูลที่มีอยู่มาใช้ให้เกิดประโยชน์ต่อธุรกิจหรือองค์กร จำเป็นต้องมีผู้เชี่ยวชาญที่สามารถจัดการนำข้อมูลที่มีอยู่มาวิเคราะห์อย่างมีประสิทธิภาพ เช่น นักวิทยาศาสตร์ข้อมูล(Data Scientist) คือคนที่นำข้อมูลมาวิเคราะห์เพื่อหาความรู้ใหม่จากข้อมูล และนอกจากตำแหน่งนี้ยังจำเป็นต้องมีคนในตำแหน่งอื่นร่วมด้วย จึงจะสามารถนำข้อมูลมาใช้งานได้อย่างมีประสิทธิภาพและเกิดประโยชน์สูงที่สุด

Big Data คืออะไร

  • ข้อมูลที่มีปริมาณมาก (volume) ไม่มีการนิยามที่ชัดเจนว่าต้องมากกว่าเท่าไร แต่โดยทั่วไปเวลาพูดคุยจะเรียกตามขนาดของข้อมูลแทนที่จะพูดถึงจำนวนแถวของข้อมูล(record) เช่น ข้อมูลขนาด 100 GB เพราะด้วยปริมาณข้อมูลขนาดนี้การจะพูดจำนวนแถวมักยาวจนพูดได้ยาก เช่น สิบล้านล้านแถว (พูดไปก็งงและเมื่อมีการพูดต่อหลายๆคน ผู้พูดคนต่อไปอาจตกหล่นจนพูดว่าสิบล้านแถว) และนอกจากข้อมูลที่เป็นข้อมูลปกติยังอาจจะมีข้อมูลประเภทวีดีโอ รูปภาพ ที่แต่ละไฟล์มีขนาดไม่เท่ากัน การนับจำนวนไฟล์ไปอาจจะไม่สื่อถึงขนาดที่แท้จริงของข้อมูล
  • ข้อมูลที่มีความหลากหลาย (variety) ข้อมูลที่มีนอกจากฐานข้อมูล(Database) อาจมีข้อมูลอื่นๆด้วย เช่น เอกสาร รูปภาพ วีดีโอ เสียง ข้อมูลจากโซเชียลมีเดีย (Social media)
  • ข้อมูลที่มีการเพิ่มขึ้นอย่างรวดเร็ว (velocity) ในแต่ละวันจะได้รับข้อมูลใหม่มาเพิ่มขึ้นจำนานมาก เช่น ธนาคารแห่งหนึ่งมีคนโอนเงินกัน 10 ล้านครั้ง/ชั่วโมง แสดงว่าข้อมูลเพิ่มขึ้นชั่วโมงละ 10 ล้าน หรือกล้องวงจรปิดสถานที่แห่งหนึ่งที่มีการติดตั้งไว้ 10 ตัว ในแต่ละวันจะมีวีดีโอใหม่เพิ่มขึ้น 240 ชั่วโมง

ระดับของข้อมูลและการนำมาใช้ประโยชน์

https://en.wikipedia.org/wiki/DIKW_pyramid
  • Data ข้อมูลดิบที่เก็บไว้โดยไม่ทำอะไร อาจใช้ได้แค่เป็นแหล่งอ้างอิง
  • Information ข้อมูลที่ผ่านการ Reporting และ Analysis ทำให้รู้ข้อมูลสถิติพื้นฐานต่างๆ และทราบว่าเกิดอะไรขึ้นมาบ้าง
  • Knowledge ข้อมูลที่ผ่านการ Analysis และ Monitoring ทำให้รู้ว่าสิ่งต่างๆเกิดขึ้นเพราะอะไร
  • Wisdom ข้อมูลที่ผ่านการ Monitoring และ Prediction ทำให้รู้ว่าถ้าอยากให้อะไรเกิดขึ้น ควรทำอะไร

Machine Learning vs Deep Learning vs AI

สามสิ่งนี้คือข้อมูลที่อยู่ในระดับของ Wisdom คือการนำข้อมูลที่มีในอดีตมาช่วยในการคิดและทำนายสิ่งที่ยังไม่ได้เกิดขึ้นจริง โดยแบ่งเป็นดังนี้

https://blogs.oracle.com/bigdata/difference-ai-machine-learning-deep-learning
  • Machine Learning เป็นระบบเรียนรู้จากข้อมูลใหม่และการคิดหรือตัดสินใจได้เองโดยอัตโนมัติ เช่น การส่งรูปภาพสินค้าเข้ามาในระบบ ระบบจะระบุได้ทันที่ว่าเป็นรูปภาพสินค้าอะไร ตรงกับหมวดที่ใส่มาหรือไม่
  • Deep Learning เป็นระบบเรียนรู้จากข้อมูลใหม่และการคิดหรือตัดสินใจได้เองโดยอัตโนมัติอย่างซับซ้อนมากขึ้น โดยเลียนแบบรูปแบบการคิดที่เกิดขึ้นในสมองของมนุษย์ ทำให้สามารถคิดสิ่งที่ซับซ้อนได้มากขึ้น เช่น การส่งรูปภาพสินค้าเข้ามาในระบบ แม้ว่ารูปภาพนั้นจะไม่ชัดเจน ระบบก็ยังสามารถระบุได้ว่าเป็นรูปภาพสินค้าอะไร ตรงกับหมวดที่ใส่มาหรือไม่
  • AI เป็นระบบตอบสนองอัตโนมัติตามที่ระบุไว้ เช่น การส่งรูปภาพสินค้าเข้ามาในระบบ แม้ว่ารูปภาพนั้นจะไม่ชัดเจน ระบบอาจปรับแต่งรูปภาพให้ชัดเจนขึ้นเอง (โดยขั้นตอนการปรับแต่งรูปภาพให้ชัดเจนขึ้น จะกลับไปใช้ Deep learning หรือ Machine learning ช่วยคิดอีกครั้งว่าจุดไหนของภาพควรปรับแต่งอย่างไร)

การยกระดับข้อมูลให้มีประโยชน์มากขึ้น

หลายองค์กรเมื่อได้ยินคำว่า Big Data, Data Science, Machine Learning, Deep Learning, AI ก็อยากจะให้องค์กรมีสิ่งเหล่านี้มาใช้งานทันที โดยไม่เข้าใจว่าการจะสร้างสิ่งเหล่านี้ต้องนำข้อมูลมาวิเคราะห์ในระดับพื้นฐานให้ได้ก่อน จากนั้นจึงนำมาต่อยอดเพิ่มขึ้น เป็นการค่อยๆยกระดับข้อมูลให้สูงขึ้นจนสุดท้ายปลายทางถึงจะกลายเป็น Machine Learning หรือ AI ในที่สุด

https://slideplayer.com/slide/2419930/
  • Reporting เพื่อดูว่าในอดีตเกิดอะไรขึ้นบ้าง การคำนวณค่าสถิติพื้นฐานและการทำกราฟต่างๆ จากข้อมูล เช่น จำนวนผู้ใช้งาน ยอดขาย สินค้าคงเหลือ เป็นต้น
  • Analysis เพื่อดูว่าในอดีตสิ่งที่เกิดขึ้นเป็นเพราะอะไร การสำรวจข้อมูลและวิเคราะห์ เช่น การดูว่าช่วงเวลาใดที่คนนิยมทำรายการ เดือนที่ยอดขายมากกว่าเดือนอื่นเป็นแบบนั้นซ้ำๆทุกปีหรือไม่(seasonal) การดูว่าคนลักษณะใดที่นิยมทำรายการนั้น การดูว่าคนที่ทำรายหนึ่งจะทำรายการอะไรร่วมด้วย
  • Monitoring เพื่อดูว่าตอนนี้กำลังเกิดอะไรขึ้น การนำสิ่งที่เกิดขึ้นในอดีตพร้อมทั้งเหตุผลมาดูแนวโน้มของสิ่งที่อาจเกิดขึ้นในปัจจุบัน เช่น ในอดีตเมื่อมีการปล่อยโปรโมชัน A จะทำให้ยอดขายเพิ่มขึ้น B หากเดือนนี้ต้องการเพิ่มยอดขายขึ้นก็อาจลองพิจารณานำโปรโมชัน A กลับมาใช้
  • Prediction เพื่อดูว่าในอนาคตจะเกิดอะไรขึ้น การนำสิ่งที่เกิดขึ้นในอดีตและสิ่งที่กำลังทำในปัจจุบันมาทำนายสิ่งที่จะเกิดขึ้นในอนาคต เช่น ลูกค้าที่มีพฤติกรรมการซื้อสินค้าเปลี่ยนไปเป็นแบบ XXX แสดงว่าลูกค้าคนนี้มีแนวโน้มจะเลิกเข้ามาใช้บริการ ทำให้สามารถเข้าไปแก้ไขได้ทันก่อนที่ลูกค้าจะเลิกเข้ามาใช้บริการ
https://insights.principa.co.za/4-types-of-data-analytics-descriptive-diagnostic-predictive-prescriptive

ที่ผ่านมาการนำข้อมูลมาใช้งาน สามารถทำได้แค่การวิเคราะห์และคำนวณทางสถิติเพื่อเข้าใจสิ่งที่เกิดขึ้นในอดีตและเหตุผลที่สิ่งต่างๆเกิดขึ้น

แต่ในปัจจุบันด้วยปริมาณข้อมูลที่มากขึ้น เทคโนโลยีที่ใหม่ขึ้น ความรู้และกระบวนการแบบใหม่ ทำให้สามารถนำข้อมูลมาใช้ทำนายสิ่งที่ยังไม่เกิดขึ้นได้อย่างแม่นยำ ในระดับที่สามารถนำผลการทำนายไปใช้งานต่อได้อย่างมีประสิทธิภาพ

การดึงประสิทธิภาพของข้อมูลออกมา จำเป็นต้องมีกลุ่มคนที่มีความรู้เฉพาะทางในด้านต่างๆ เพื่อช่วยกันจัดการและดึงประสิทธิภาพของข้อมูลที่มีออกมาใช้ประโยชน์ให้ได้มากที่สุด

ตำแหน่งที่สำคัญในทีมจัดการข้อมูล

https://www.digitalsource.io/news/job-opportunities-data-engineer-vs-data-scientist/39813/
  • Stakeholder ผู้มีส่วนเกี่ยวข้องกับข้อมูล เช่น เจ้าขององค์กร เจ้าของธุรกิจ บริษัทที่จ้างวิเคราะห์ข้อมูล ผู้ใช้งานที่ถูกเก็บข้อมูลไป
  • Project Manager (PM) ผู้ควบคุมการพัฒนาโปรเจกต์ เพื่อนำข้อมูลไปใช้ประโยชน์ให้ได้ตามเป้าหมาย
  • Data Engineer (DE) ผู้วางระบบเส้นทางการไหลของข้อมูล และรวบรวมข้อมูลไปเก็บไว้ให้พร้อมสำหรับการนำไปใช้งาน
  • Data Analyst (DA) / BI ผู้นำข้อมูลไปวิเคราะห์เบื้องต้นเพื่อหาข้อสรุปต่างๆ
  • Data Scientist (DS) ผู้นำข้อมูลไปวิเคราะห์ด้วยวิธีการที่ลึกขึ้น เช่น Machine learning เพื่อให้ได้ข้อสรุปที่ซับซ้อนมากขึ้น
  • Software Developer (Dev) ผู้พัฒนาระบบให้รองรับการเก็บข้อมูลเพื่อนำไปวิเคราะห์ และพัฒนาระบบให้ผู้ใช้สามารถเข้าใช้งานสิ่งต่างๆได้โดยง่าย

การสร้างระบบเพื่อใช้ในการจัดการข้อมูล