แมชชีนเลิร์นนิงเป็นสาขาหนึ่งของวิทยาการคอมพิวเตอร์ ซึ่งเป็นสาขาหนึ่งของปัญญาประดิษฐ์ เป็นวิธีการวิเคราะห์ข้อมูลที่ช่วยในการสร้างแบบจำลองการวิเคราะห์โดยอัตโนมัติ หรืออีกทางหนึ่ง ตามที่คำนี้ระบุไว้ คือให้เครื่องจักร (ระบบคอมพิวเตอร์) ที่มีความสามารถในการเรียนรู้จากข้อมูล โดยไม่ต้องอาศัยความช่วยเหลือจากภายนอกในการตัดสินใจโดยมีการรบกวนจากมนุษย์น้อยที่สุด ด้วยวิวัฒนาการของเทคโนโลยีใหม่ แมชชีนเลิร์นนิงได้เปลี่ยนไปมากในช่วงไม่กี่ปีที่ผ่านมา
เรามาคุยกันว่า Big Data คืออะไร?
ข้อมูลขนาดใหญ่หมายถึงข้อมูลที่มากเกินไปและการวิเคราะห์หมายถึงการวิเคราะห์ข้อมูลจำนวนมากเพื่อกรองข้อมูล มนุษย์ไม่สามารถทำงานนี้ได้อย่างมีประสิทธิภาพภายในเวลาที่กำหนด ดังนั้นนี่คือจุดที่แมชชีนเลิร์นนิงสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่เข้ามามีบทบาท ลองยกตัวอย่าง สมมติว่าคุณเป็นเจ้าของบริษัทและต้องการรวบรวมข้อมูลจำนวนมาก ซึ่งเป็นเรื่องยากมากในการดำเนินการเอง จากนั้นคุณก็เริ่มพบเงื่อนงำที่จะช่วยคุณในธุรกิจหรือตัดสินใจได้เร็วขึ้น ที่นี่คุณตระหนักดีว่าคุณกำลังจัดการกับข้อมูลมหาศาล การวิเคราะห์ของคุณต้องการความช่วยเหลือเพียงเล็กน้อยเพื่อให้การค้นหาประสบความสำเร็จ ในกระบวนการแมชชีนเลิร์นนิง ข้อมูลที่คุณให้กับระบบมากขึ้น ระบบสามารถเรียนรู้จากมันได้มากขึ้น และส่งคืนข้อมูลทั้งหมดที่คุณกำลังค้นหา และทำให้การค้นหาของคุณประสบความสำเร็จ นั่นคือเหตุผลว่าทำไมจึงทำงานได้ดีกับการวิเคราะห์ข้อมูลขนาดใหญ่ หากไม่มีบิ๊กดาต้า ก็จะไม่สามารถทำงานได้ในระดับที่เหมาะสม เนื่องจากข้อเท็จจริงที่ว่ามีข้อมูลน้อย ระบบจึงมีตัวอย่างไม่กี่ตัวอย่างให้เรียนรู้ ดังนั้นเราจึงสามารถพูดได้ว่าข้อมูลขนาดใหญ่มีบทบาทสำคัญในการเรียนรู้ของเครื่อง
แทนที่จะมีข้อได้เปรียบต่างๆ ของแมชชีนเลิร์นนิงในการวิเคราะห์ ยังมีความท้าทายต่างๆ อีกด้วย ให้เราคุยกันทีละคน:
-
การเรียนรู้จากข้อมูลจำนวนมหาศาล: ด้วยความก้าวหน้าของเทคโนโลยี จำนวนข้อมูลที่เราประมวลผลเพิ่มขึ้นทุกวัน ในเดือนพฤศจิกายน 2017 พบว่า Google ประมวลผลประมาณ 25PB ต่อวัน เมื่อเวลาผ่านไป บริษัทต่างๆ จะข้ามข้อมูลระดับเพตะไบต์เหล่านี้ คุณลักษณะที่สำคัญของข้อมูลคือปริมาณ ดังนั้นจึงเป็นเรื่องท้าทายอย่างยิ่งในการประมวลผลข้อมูลจำนวนมหาศาลเช่นนี้ เพื่อเอาชนะความท้าทายนี้ ควรเลือกใช้กรอบงานแบบกระจายที่มีการประมวลผลแบบขนาน
-
การเรียนรู้ประเภทข้อมูลต่างๆ: ข้อมูลในปัจจุบันมีความหลากหลายมาก ความหลากหลายยังเป็นคุณลักษณะที่สำคัญของข้อมูลขนาดใหญ่ มีโครงสร้าง ไม่มีโครงสร้าง และกึ่งมีโครงสร้างเป็นข้อมูลสามประเภทที่แตกต่างกัน ซึ่งส่งผลให้เกิดการสร้างข้อมูลที่แตกต่างกัน ไม่เป็นเชิงเส้น และมีข้อมูลในมิติสูง การเรียนรู้จากชุดข้อมูลที่ยอดเยี่ยมนั้นเป็นสิ่งที่ท้าทายและส่งผลให้ข้อมูลมีความซับซ้อนเพิ่มขึ้น เพื่อเอาชนะความท้าทายนี้ ควรใช้การรวมข้อมูล
-
การเรียนรู้ข้อมูลสตรีมความเร็วสูง: มีงานหลายอย่างที่รวมถึงการทำงานให้เสร็จในช่วงเวลาหนึ่งๆ ความเร็วยังเป็นหนึ่งในคุณสมบัติหลักของข้อมูลขนาดใหญ่ หากงานไม่เสร็จในระยะเวลาที่กำหนด ผลลัพธ์ของการประมวลผลอาจมีค่าน้อยลงหรือไร้ค่าด้วยซ้ำ สำหรับสิ่งนี้ คุณสามารถใช้ตัวอย่างการทำนายตลาดหุ้น การทำนายแผ่นดินไหว เป็นต้น ดังนั้นจึงจำเป็นและท้าทายมากในการประมวลผลข้อมูลขนาดใหญ่ให้ทันเวลา เพื่อเอาชนะความท้าทายนี้ ควรใช้วิธีการเรียนรู้ออนไลน์
-
การเรียนรู้ข้อมูลที่คลุมเครือและไม่สมบูรณ์: ก่อนหน้านี้ อัลกอริทึมการเรียนรู้ของเครื่องให้ข้อมูลที่ค่อนข้างแม่นยำมากกว่า ดังนั้นผลลัพธ์ก็แม่นยำในเวลานั้น แต่ปัจจุบันข้อมูลมีความคลุมเครือเนื่องจากข้อมูลถูกสร้างมาจากแหล่งต่างๆ กัน ซึ่งไม่แน่นอนและไม่สมบูรณ์ด้วย ดังนั้นจึงเป็นความท้าทายที่ยิ่งใหญ่สำหรับการเรียนรู้ของเครื่องในการวิเคราะห์ข้อมูลขนาดใหญ่ ตัวอย่างของข้อมูลที่ไม่แน่นอนคือข้อมูลที่สร้างขึ้นในเครือข่ายไร้สายเนื่องจากสัญญาณรบกวน แสงเงา การซีดจาง เป็นต้น เพื่อเอาชนะความท้าทายนี้ ควรใช้วิธีการกระจายตาม
-
การเรียนรู้ข้อมูลความหนาแน่นที่มีค่าต่ำ: จุดประสงค์หลักของแมชชีนเลิร์นนิงสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่คือการดึงข้อมูลที่เป็นประโยชน์จากข้อมูลจำนวนมากเพื่อประโยชน์ทางการค้า ค่าเป็นหนึ่งในคุณลักษณะที่สำคัญของข้อมูล การค้นหาค่าที่มีนัยสำคัญจากข้อมูลปริมาณมากที่มีความหนาแน่นของค่าต่ำนั้นเป็นสิ่งที่ท้าทายมาก ดังนั้นจึงเป็นความท้าทายที่ยิ่งใหญ่สำหรับการเรียนรู้ของเครื่องในการวิเคราะห์ข้อมูลขนาดใหญ่ เพื่อเอาชนะความท้าทายนี้ ควรใช้เทคโนโลยีการขุดข้อมูลและการค้นหาความรู้ในฐานข้อมูล