
เกิดอะไรขึ้น
- เมื่อวันที่ 7 มีนาคม Peng Zhihui ผู้ร่วมก่อตั้งบริษัท Zhiyuan Robotics กล่าวเป็นนัยว่า "สัปดาห์หน้าจะมีอะไรใหญ่ๆ เกิดขึ้น"
- อินเทอร์เน็ตโหมกระหน่ำ มีผู้คนกว่า 100,000 คนเข้ามารับชมเพื่อรับชมว่ามีอะไรน่าสนใจบ้าง
- วันที่ 10 มีนาคม AGIbot เปิดเผยว่า จินนี่ โอเปอเรเตอร์-1 (GO-1) — โมเดลฐานรวมขนาดใหญ่แบบสากลรุ่นแรกของพวกเขา
ด้วยเหตุนี้ ในเช้าวันที่ 10 มีนาคม AGIbot Robotics จึงได้เปิดเผยคำตอบ นั่นคือ Genie Operator-1 (GO-1) ซึ่งเป็นโมเดลพื้นฐานขนาดใหญ่แบบรวมศูนย์รุ่นแรกของ AGIbot ในวิดีโอ หุ่นยนต์สามารถปิ้งขนมปัง ชงกาแฟ และส่งอาหารเช้าถึงมือคุณได้อย่างไม่มีปัญหา
เจ้าหน้าที่อ้างว่า GO-1 ไม่เพียงแต่มีความสามารถในการสรุปทั่วไปที่แข็งแกร่งเท่านั้น แต่ยังสามารถปรับตัวให้เข้ากับสถานการณ์ใหม่และงานใหม่ที่มีข้อมูลน้อยมากหรือแม้แต่ตัวอย่างเป็นศูนย์ได้อย่างรวดเร็ว ในช่วงปลายปี 2024 AGIbot ได้เปิดตัว AgiBot World ซึ่งเป็นชุดข้อมูลคุณภาพสูงขนาดใหญ่ที่มีเส้นทางมากกว่า 1 ล้านเส้นทาง ครอบคลุมงาน 217 งาน และเกี่ยวข้องกับสถานการณ์สำคัญ 5 สถานการณ์ โดยอาศัย "แหล่งข้อมูลล้ำค่า" ขนาดใหญ่นี้ GO-1 จึงสามารถฝึกอบรมอย่างมีประสิทธิภาพและสรุปผลได้อย่างกว้างขวางภายในระยะเวลาอันสั้น อาจกล่าวได้ว่า AgiBot World คือ "ฮีโร่ที่มองไม่เห็น" เบื้องหลัง GO-1 แล้วโมเดลพื้นฐานของหุ่นยนต์ GO-1 ทำงานอย่างไร และมีความหมายอย่างไรต่ออุตสาหกรรมหุ่นยนต์?
ตามคำแถลงอย่างเป็นทางการระบุว่า นอกจากจะขยายความสามารถด้านกีฬาของหุ่นยนต์แล้ว GO-1 ยังเสริมความสามารถด้าน AI ที่สำคัญกว่า ซึ่งจะเพิ่มมูลค่าการใช้งานจริงของหุ่นยนต์ได้อย่างมาก .

ในวิดีโอสาธิตที่เผยแพร่โดย AGIbot นั้น GO-1 ได้แสดงให้เห็นถึงความสามารถในการเรียนรู้ที่แข็งแกร่ง โดยสามารถเรียนรู้ทักษะใหม่ๆ ได้อย่างรวดเร็วและนำไปประยุกต์ใช้กับงานจริงได้อย่างมีประสิทธิภาพ โดยสามารถดูวิดีโอการใช้งานของมนุษย์ได้ ตัวอย่างเช่น วิดีโอดังกล่าวแสดงให้เห็นความสามารถในการติดตามวัตถุอันทรงพลังของ GO-1 ซึ่งแม้ว่าถ้วยจะเคลื่อนที่แบบสุ่ม แต่ถ้วยก็ยังเทน้ำได้อย่างแม่นยำ ประการที่สอง GO-1 ได้แสดงให้เห็นถึงความสามารถในการสรุปผลโดยรวมที่แข็งแกร่งมาก
ต่างจากโมเดลดั้งเดิมที่ต้องใช้ข้อมูลจำนวนมากในการฝึกอบรม GO-1 สามารถสรุปผลทั่วไปได้อย่างรวดเร็วด้วยข้อมูลเพียงหลายร้อยชิ้น ตัวอย่างเช่น ในการสาธิต หลังจากเสร็จสิ้นภารกิจการเทน้ำ GO-1 สามารถเปลี่ยนไปสู่ภารกิจใหม่ของการปิ้งขนมปังและทาแยมได้อย่างราบรื่นโดยไม่ต้องฝึกเพิ่มเติม ความสามารถนี้ไม่เพียงแต่แสดงให้เห็นถึงความสามารถในการปรับตัวของ GO-1 สำหรับงานที่หลากหลายเท่านั้น แต่ยังสะท้อนถึงข้อได้เปรียบหลักของการเรียนรู้แบบมินิมอลอีกด้วย

ในเวลาเดียวกัน ความสามารถในการทำงานแบบครอสบอดี้ของ GO-1 ยังให้การสนับสนุนทางเทคนิคที่แข็งแกร่งสำหรับการทำงานร่วมกันของหุ่นยนต์หลายตัว ในวิดีโอที่เผยแพร่โดย AGIbot แสดงให้เห็นฉากที่หุ่นยนต์สองตัวทำงานร่วมกันเพื่อทำภารกิจที่ซับซ้อนให้สำเร็จ โดยหุ่นยนต์ตัวหนึ่งรับแขกที่แผนกต้อนรับ และอีกตัวหนึ่งทำหน้าที่ชงกาแฟ การทำงานร่วมกันนี้สะท้อนให้เห็นถึงประสิทธิภาพและความสามารถในการปรับตัวของ GO-1
โดยทั่วไปแล้วโมเดลจำลองแบบดั้งเดิมจะออกแบบมาสำหรับหุ่นยนต์ตัวเดียว (Hardware Embodiment) ซึ่งนำไปสู่ปัญหาสำคัญสองประการ ได้แก่ การใช้ข้อมูลต่ำและการปรับใช้ที่จำกัด อย่างไรก็ตาม GO-1 สามารถเปิดใช้งานร่างกายหลายร่างและย้ายระหว่างรูปแบบหุ่นยนต์ที่แตกต่างกันได้อย่างรวดเร็ว ช่วยปรับปรุงประสิทธิภาพการใช้ข้อมูลและลดต้นทุนการปรับใช้อย่างมีนัยสำคัญ .

นอกจากนี้ ยังควรกล่าวถึงว่าโมเดลขนาดใหญ่ของ GO-1 ยังสามารถใช้ร่วมกับระบบรีโฟลว์ข้อมูล AGIbot ครบชุดได้ ซึ่งสามารถพัฒนาและเรียนรู้จากข้อมูลปัญหาที่พบในการดำเนินการจริงได้อย่างต่อเนื่อง ระบบนี้สามารถรวบรวมข้อมูลปัญหาจากกระบวนการดำเนินการจริง โดยเฉพาะข้อผิดพลาดในการดำเนินการหรือสถานการณ์ที่ผิดปกติ และปรับปรุงประสิทธิภาพของ GO-1 อย่างต่อเนื่องผ่านการตรวจสอบด้วยตนเองและการปรับแต่งโมเดล
ตัวอย่างเช่น ในสถานการณ์การสาธิต หุ่นยนต์ทำผิดพลาดเมื่อวางถ้วยกาแฟ ระบบจะรีโฟลว์ข้อมูลที่เกี่ยวข้องทันทีและปรับโมเดลให้เหมาะสมในลักษณะที่ตรงเป้าหมายเพื่อให้แน่ใจว่าการดำเนินการครั้งต่อไปจะแม่นยำยิ่งขึ้น
ในเวลาเดียวกัน รุ่นใหญ่ GO-1 ยังเพิ่มวิธีการโต้ตอบด้วยเสียงใหม่สำหรับหุ่นยนต์อีกด้วย ซึ่งช่วยให้ผู้ใช้แสดงความต้องการได้อย่างอิสระในสถานการณ์จริง
เหตุผลที่ GO-1 มีประสิทธิภาพที่น่าทึ่งก็คือสถาปัตยกรรมโมเดลที่แตกต่างกัน
GO-1 ใช้สถาปัตยกรรม Vision-Language-Latent-Action (ViLLA) ซึ่งผสมผสานโมเดลขนาดใหญ่หลายโหมด (VLM) และระบบผู้เชี่ยวชาญแบบไฮบริด (MoE) และแบ่งออกเป็นสามโมดูลที่ทำงานร่วมกัน:
VLM (Very Large Multimodal Model): อิงตาม InternVL-2B โดยประมวลผลภาพมุมมองหลายมุม สัญญาณแรง และอินพุตภาษาเพื่อให้รับรู้ฉากและเข้าใจคำสั่ง
Latent Planner: การคาดการณ์ Latent Action Token ช่วยถ่ายโอนความรู้เกี่ยวกับการดำเนินการจากข้อมูลอินเทอร์เน็ตที่หลากหลายไปยังงานของหุ่นยนต์ ช่วยแก้ปัญหาข้อมูลเครื่องจักรจริงคุณภาพสูงที่ไม่เพียงพอ
Action Expert: สร้างลำดับการดำเนินการที่มีความถี่สูงและยืดหยุ่นตาม Diffusion Model เพื่อให้มั่นใจถึงการดำเนินการที่แม่นยำ
ผู้เชี่ยวชาญในอุตสาหกรรมเชื่อว่า สถาปัตยกรรมโมเดล thatGO-1 นั้นเรียบง่ายมาก และไม่มีนวัตกรรมใหม่ๆ มากนัก
โดยจะบูรณาการงาน ข้อมูล และวิธีการฝึกอบรมที่มีอยู่เป็นหลัก หากเปรียบเทียบกับรุ่นก่อนหน้า สิ่งที่เพิ่มเข้ามาใหม่เพียงอย่างเดียวคือชั้น Latent Planner แต่ก็มีเพียงไม่กี่ชั้นของ Transformer และไม่ซับซ้อน

ซุย เหว่ย รองประธานบริษัท Digua Robotics กล่าวว่างานของ AGIbot แก้ไขปัญหาของอุตสาหกรรมโดยตรง นั่นคือ ปัญหาข้อมูล และส่งผลดีต่ออุตสาหกรรมปัญญาประดิษฐ์ อย่างไรก็ตาม เมื่อเปรียบเทียบกับโมเดลขนาดใหญ่ สิ่งที่มีค่าที่สุดก็คือชุดข้อมูล
ตามรายงานระบุว่า GO-1 นั้นมีชุดข้อมูลหุ่นยนต์ขนาดใหญ่พิเศษที่เรียกว่า AgiBot World โดยชุดข้อมูล AgiBot World ประกอบด้วยเส้นทางการเคลื่อนที่มากกว่า 1 ล้านเส้นทาง ซึ่งรวบรวมโดยหุ่นยนต์จริง 100 ตัว ครอบคลุมสถานการณ์จริงมากกว่า 100 สถานการณ์ และงานเฉพาะ 217 งาน
ชุดข้อมูลนี้สร้างขึ้นบนแพลตฟอร์มฮาร์ดแวร์ AgiBot G1 และรวบรวมโดยหุ่นยนต์ที่เป็นเนื้อเดียวกันมากกว่า 100 ตัว โดยให้ข้อมูลการทำงานของหุ่นยนต์โอเพ่นซอร์สคุณภาพสูงและรองรับการแก้ไขงานที่ท้าทายในสถานการณ์จริงที่หลากหลาย ชุดข้อมูล AgiBot World เวอร์ชันล่าสุดประกอบด้วยเส้นทางการเคลื่อนที่ 1 ล้านเส้นทาง โดยมีระยะเวลารวม 2,976.4 ชั่วโมง ครอบคลุมทักษะ 87 รายการและสถานการณ์จำลอง 106 รายการ
ในขณะเดียวกัน AgiBot World ไม่ได้จำกัดอยู่แค่การทำงานพื้นฐานบนโต๊ะในห้องปฏิบัติการ เช่น การจับและการวาง แต่ยังมุ่งเน้นไปที่สถานการณ์ในโลกแห่งความเป็นจริงที่เกี่ยวข้องกับการจัดการแขนสองข้าง การใช้มืออย่างคล่องแคล่ว และงานที่ต้องใช้ความร่วมมือ
เมื่อเปรียบเทียบกับชุดข้อมูลที่มีอยู่ในอุตสาหกรรม (Open X-Embodiment) ข้อมูลของ AGIbot นั้นมีปริมาณมากกว่าและมีคุณภาพข้อมูล มาตรฐาน และความสอดคล้องกันที่ดีกว่า ชุดข้อมูล Open X-Embodiment ประกอบด้วยออนโทโลยีรูปแบบต่างๆ มากมาย และรูปแบบข้อมูลก็แตกต่างกันมาก ซึ่งจะรบกวนการฝึกโมเดลเป็นอย่างมาก
อย่างไรก็ตาม แม้ว่าชุดข้อมูลของ AGIbot จะไปถึงระดับหนึ่งแล้วก็ตาม แต่ก็ยังเป็นเพียงจุดเริ่มต้นเล็กๆ และไม่ได้นำไปสู่การปรับปรุงความสามารถของหุ่นยนต์อย่างมีนัยสำคัญแต่อย่างใด
ผลการทดสอบแสดงให้เห็นว่าประสิทธิภาพของ GO-1 ได้รับการปรับปรุงอย่างมากเมื่อเทียบกับรุ่นก่อนๆ แต่อัตราความสำเร็จในการเทน้ำ จัดเรียงโต๊ะ และเติมเครื่องดื่มยังน้อยกว่า 80%
ซุย เหว่ย กล่าวว่าในระยะนี้ โมเดลไม่ได้เป็นคอขวดหลักของอุตสาหกรรมหุ่นยนต์ ความท้าทายที่แท้จริงอยู่ที่สองด้าน ประการแรก ฮาร์ดแวร์ที่ผสานเข้าด้วยกัน เช่น การออกแบบแบบไบโอนิกส์ เช่น กริปเปอร์ มือที่คล่องแคล่ว และเซ็นเซอร์สัมผัส ยังไม่ได้มาตรฐาน ประการที่สอง เนื่องจากไม่สามารถส่งเสริมตัวเครื่องหลักในระดับใหญ่ได้ ปริมาณข้อมูลจึงไม่เพียงพอเสมอ
ในปัจจุบัน ในแง่ของการรวบรวมข้อมูล อุตสาหกรรมหุ่นยนต์พึ่งพาเทคโนโลยีการควบคุมจากระยะไกลเป็นหลัก ซึ่งรวมถึงอุปกรณ์เสมือนจริง (VR) อุปกรณ์ประเภทสายรัดแบบไอโซมอร์ฟิก และอุปกรณ์จับการเคลื่อนไหว อย่างไรก็ตาม ต้นทุนการรวบรวมข้อมูลของอุตสาหกรรมหุ่นยนต์นั้นสูงและขาดการสนับสนุนมูลค่าเชิงพาณิชย์ที่ชัดเจน ซึ่งทำให้ล้อหมุนของวงจรปิดข้อมูลทำงานได้อย่างรวดเร็ว
เมื่อเปรียบเทียบกันแล้ว ต้นทุนการรวบรวมข้อมูลในอุตสาหกรรมการขับขี่อัตโนมัติแทบจะเป็นศูนย์ ระบบรับรู้บนรถสามารถส่งข้อมูลกลับมาอย่างต่อเนื่อง ทำให้เกิดวงจรปิดข้อมูลที่มีประสิทธิภาพ
ในช่วงท้ายของวิดีโอเปิดตัว GO-1 ทุกคนต่างก็พบไข่อีสเตอร์ นั่นคือ AGIbot Robotics ได้แสดงตัวอย่างผลิตภัณฑ์หุ่นยนต์อัจฉริยะที่เป็นรูปเป็นร่างตัวต่อไป แม้ว่าจะยังไม่ได้ประกาศเวลาที่ชัดเจนก็ตาม อย่างไรก็ตาม AGIbot โพสต์บน Weibo ทันทีว่า "จะมีเซอร์ไพรส์ในวันพรุ่งนี้" และข่าวนี้ก็ทำให้คนในอุตสาหกรรมคาดหวังอีกครั้งทันที
การเพิ่มขึ้นของโมเดลขนาดใหญ่ส่งผลให้เกิดวิวัฒนาการครั้งยิ่งใหญ่ในอุตสาหกรรม AI ผู้คนต่างอยากรู้เป็นพิเศษว่าโมเดลขนาดใหญ่สามารถส่งเสริมอุตสาหกรรมหุ่นยนต์และปัญญาประดิษฐ์ได้อย่างไร GO-1 ของ Zhiyuanhe ผู้ก่อตั้ง Zhihuijun ดูเหมือนจะเป็นจุดเริ่มต้นที่ดี เห็นได้ชัดว่า AI ประดิษฐ์นั้นทำได้ยากโดยบริษัทที่เป็นอิสระ ความร่วมมือแบบโอเพนซอร์สเท่านั้นที่จะสามารถบรรลุวิวัฒนาการที่รวดเร็วของอุตสาหกรรมหุ่นยนต์ได้อย่างแท้จริง
สมัครสมาชิกเพื่อรับอัปเดตบทความบล็อกล่าสุด
ฝากความคิดเห็นของคุณ: