Những gì đã xảy ra

  • Vào ngày 7 tháng 3, nhà đồng sáng lập Zhiyuan Robotics là Peng Zhihui đã tiết lộ: “Một điều gì đó lớn lao sẽ diễn ra vào tuần tới”.
  • Internet trở nên sôi động. Hơn 100.000 người đã theo dõi để xem tin tức này là gì.
  • Vào ngày 10 tháng 3, AGIbot đã tiết lộ Genie Operator-1 (GO-1) — mô hình cơ sở hiện thân phổ quát, quy mô lớn đầu tiên của họ.

Kết quả là, vào sáng ngày 10 tháng 3, AGIbot Robotics đã tiết lộ câu trả lời – Genie Operator-1 (GO-1), mô hình cơ sở thể hiện phổ quát quy mô lớn đầu tiên của AGIbot. Trong video, robot có thể nướng bánh mì, pha cà phê và giao bữa sáng đến tận tay bạn mà không gặp bất kỳ vấn đề gì.

Các viên chức tuyên bố rằng GO-1 không chỉ có khả năng khái quát hóa mạnh mẽ mà còn có thể nhanh chóng thích ứng với các tình huống và nhiệm vụ mới với rất ít dữ liệu hoặc thậm chí không có mẫu nào . Ngay từ cuối năm 2024, AGIbot đã ra mắt AgiBot World, một tập dữ liệu chất lượng cao quy mô lớn chứa hơn 1 triệu quỹ đạo, bao gồm 217 nhiệm vụ và liên quan đến năm kịch bản chính. Dựa trên "mỏ vàng dữ liệu" khổng lồ này, GO-1 có thể đạt được khả năng đào tạo hiệu quả và khái quát hóa rộng rãi trong thời gian ngắn. Có thể nói rằng AgiBot World là "người hùng vô hình" đằng sau GO-1. Vậy mô hình cơ sở robot GO-1 thực sự hoạt động như thế nào và nó có ý nghĩa gì đối với ngành công nghiệp robot?

Theo tuyên bố chính thức, ngoài việc mở rộng khả năng thể thao của robot, GO-1 còn quan trọng hơn là tăng cường khả năng AI của nó, do đó làm tăng đáng kể giá trị thực tế của robot .

Trong video trình diễn do AGIbot phát hành, GO-1 đã thể hiện khả năng học tập mạnh mẽ: bằng cách xem video hoạt động của con người, nó có thể nhanh chóng nắm vững các kỹ năng mới và áp dụng chúng một cách hiệu quả vào các nhiệm vụ thực tế. Ví dụ, video cho thấy khả năng theo dõi vật thể mạnh mẽ của GO-1: ngay cả khi cốc được di chuyển ngẫu nhiên, nó vẫn có thể hoàn thành chính xác hành động rót. Thứ hai, GO-1 đã chứng minh khả năng khái quát hóa rất mạnh.

Không giống như các mô hình truyền thống đòi hỏi lượng dữ liệu khổng lồ để đào tạo, GO-1 có thể đạt được sự khái quát hóa nhanh chóng chỉ với hàng trăm mẩu dữ liệu Ví dụ, trong phần trình diễn, sau khi hoàn thành nhiệm vụ rót nước, GO-1 có thể dễ dàng chuyển sang nhiệm vụ mới là nướng bánh mì và phết mứt mà không cần đào tạo thêm. Khả năng này không chỉ chứng minh khả năng thích ứng của GO-1 với nhiều nhiệm vụ khác nhau mà còn phản ánh lợi thế cốt lõi của việc học tối giản.

Đồng thời, khả năng di chuyển chéo của GO-1 cung cấp hỗ trợ kỹ thuật mạnh mẽ cho sự hợp tác của nhiều robot. Trong video do AGIbot phát hành, có cảnh hai robot làm việc cùng nhau để hoàn thành một nhiệm vụ phức tạp: một robot tiếp khách tại quầy lễ tân, và robot còn lại tập trung vào việc pha cà phê. Sự hợp tác này phản ánh hiệu quả và khả năng thích ứng của GO-1.

Các mô hình hiện thân truyền thống thường được thiết kế cho một thân robot duy nhất (Hardware Embodiment), dẫn đến hai vấn đề chính: sử dụng dữ liệu thấp và triển khai hạn chế. Tuy nhiên, GO-1 có thể cho phép nhiều cơ thể và di chuyển nhanh chóng giữa các hình dạng robot khác nhau, cải thiện đáng kể hiệu quả sử dụng dữ liệu và giảm chi phí triển khai .

Cần lưu ý rằng mô hình lớn GO-1 cũng có thể được sử dụng với một bộ hoàn chỉnh các hệ thống hồi lưu dữ liệu AGIbot, có thể liên tục phát triển và học hỏi từ dữ liệu vấn đề gặp phải trong quá trình thực hiện thực tế. Hệ thống này có thể thu thập dữ liệu vấn đề từ quá trình thực hiện thực tế, đặc biệt là lỗi thực hiện hoặc tình huống bất thường và liên tục cải thiện hiệu suất của GO-1 thông qua việc xem xét thủ công và tối ưu hóa mô hình.

Ví dụ, trong kịch bản trình diễn, robot đã mắc lỗi khi đặt một tách cà phê. Hệ thống sẽ ngay lập tức sắp xếp lại dữ liệu có liên quan và tối ưu hóa mô hình theo cách có mục tiêu để đảm bảo thao tác tiếp theo chính xác hơn.

Đồng thời, model GO-1 cỡ lớn còn bổ sung thêm phương thức tương tác bằng giọng nói mới cho robot, giúp người dùng dễ dàng thể hiện nhu cầu của mình trong các tình huống thực tế.

Lý do đằng sau hiệu suất tuyệt vời của GO-1 là cấu trúc mô hình khác biệt của nó.

GO-1 sử dụng kiến trúc Vision-Language-Latent-Action (ViLLA), kết hợp mô hình lớn đa phương thức (VLM) và hệ thống chuyên gia lai (MoE) và được chia thành ba mô-đun hoạt động cùng nhau:

VLM (Mô hình đa phương thức rất lớn): Dựa trên InternVL-2B, mô hình này xử lý tín hiệu hình ảnh, lực và ngôn ngữ đa góc nhìn để đạt được nhận thức về bối cảnh và hiểu lệnh.

Trình lập kế hoạch tiềm ẩn: Bằng cách dự đoán Mã thông báo hành động tiềm ẩn, nó chuyển kiến thức hành động từ dữ liệu Internet không đồng nhất sang các tác vụ của robot, giải quyết vấn đề về dữ liệu máy thực chất lượng cao không đủ.

Chuyên gia hành động: Tạo ra các chuỗi hành động linh hoạt và tần suất cao dựa trên Mô hình khuếch tán để đảm bảo thực hiện chính xác.

Những người trong ngành tin rằng thatGO-1Kiến trúc mô hình rất đơn giản, không có nhiều cải tiến. 

Nó chủ yếu tích hợp công việc hiện có, dữ liệu và phương pháp đào tạo .So với mô hình trước, điểm mới duy nhất được bổ sung là một lớp Latent Planner, nhưng chỉ là một vài lớp Transformer và không phức tạp.

Sui Wei, phó chủ tịch của Digua Robotics, cho biết công trình của AGIbot giải quyết trực tiếp điểm đau của ngành – vấn đề dữ liệu và có tác dụng thúc đẩy rất tốt đối với ngành trí tuệ nhân tạo. Tuy nhiên, so với mô hình lớn, điều có giá trị nhất ở đây là tập dữ liệu.


Theo báo cáo, hỗ trợ cơ bản của GO-1 là một tập dữ liệu robot siêu lớn có tên là AgiBot World. Được biết, tập dữ liệu AgiBot World chứa hơn 1 triệu quỹ đạo, được thu thập bởi 100 robot thực, bao gồm hơn 100 tình huống thực tế và 217 nhiệm vụ cụ thể.


Bộ dữ liệu được xây dựng trên nền tảng phần cứng AgiBot G1 và được thu thập bởi hơn 100 robot đồng nhất. Nó cung cấp dữ liệu hoạt động của robot nguồn mở chất lượng cao và hỗ trợ giải quyết các nhiệm vụ đầy thách thức trong nhiều tình huống thực tế. Phiên bản mới nhất của bộ dữ liệu AgiBot World chứa 1 triệu quỹ đạo với tổng thời lượng là 2976,4 giờ, bao gồm 87 kỹ năng và 106 tình huống.


Trong khi đó, AgiBot World không chỉ dừng lại ở các nhiệm vụ cơ bản trên bàn trong môi trường phòng thí nghiệm như cầm nắm và đặt, mà còn tập trung vào các tình huống thực tế liên quan đến thao tác bằng cả hai tay, bàn tay khéo léo và các nhiệm vụ hợp tác.


So với bộ dữ liệu hiện có trong ngành (Open X-Embodiment), dữ liệu của AGIbot lớn hơn về số lượng và có chất lượng dữ liệu, chuẩn hóa và nhất quán tốt hơn. Bộ dữ liệu Open X-Embodiment chứa nhiều dạng ontology khác nhau và các dạng dữ liệu rất khác nhau, điều này sẽ ảnh hưởng lớn đến việc đào tạo mô hình.

Tuy nhiên, mặc dù tập dữ liệu của AGIbot đã đạt đến một quy mô nhất định, nhưng đây vẫn chỉ là điểm khởi đầu nhỏ và chưa mang lại sự cải thiện đáng kể về khả năng của robot.
Kết quả thử nghiệm cho thấy hiệu suất của GO-1 đã được cải thiện đáng kể so với các model trước đó, tuy nhiên tỷ lệ thành công trong việc rót nước, dọn bàn và bổ sung đồ uống vẫn thấp hơn 80%.


Sui Wei cho biết ở giai đoạn này, mô hình không phải là nút thắt cổ chai cốt lõi của ngành công nghiệp robot. Thách thức thực sự nằm ở hai khía cạnh: thứ nhất, sự hội tụ của phần cứng, ví dụ, các thiết kế sinh học như kẹp, bàn tay khéo léo và cảm biến xúc giác vẫn chưa được chuẩn hóa; thứ hai, vì thân máy chính không thể được quảng bá trên quy mô lớn nên lượng dữ liệu luôn không đủ.


Hiện nay, về mặt thu thập dữ liệu, ngành công nghiệp robot chủ yếu dựa vào công nghệ điều khiển từ xa, bao gồm thiết bị thực tế ảo (VR), thiết bị loại dây đeo đẳng hình và thiết bị bắt chuyển động. Tuy nhiên, chi phí thu thập dữ liệu của ngành công nghiệp robot cao và thiếu sự hỗ trợ giá trị thương mại rõ ràng, khiến bánh đà của vòng lặp dữ liệu khép kín khó có thể chạy nhanh.


So sánh, chi phí thu thập dữ liệu trong ngành công nghiệp lái xe tự động hầu như không đáng kể. Hệ thống nhận thức trên xe có thể liên tục truyền dữ liệu trở lại, tạo thành một vòng dữ liệu khép kín hiệu quả.


Vào cuối video phát hành GO-1, mọi người đều tìm thấy một quả trứng Phục sinh – AGIbot Robotics đã xem trước sản phẩm robot thông minh hiện thân tiếp theo, mặc dù thời gian cụ thể vẫn chưa được công bố. Tuy nhiên, AGIbot đã ngay lập tức đăng trên Weibo rằng "sẽ có một bất ngờ vào ngày mai", và tin tức này ngay lập tức đã lấp đầy sự mong đợi của ngành công nghiệp một lần nữa.


Sự trỗi dậy của các mô hình lớn đã dẫn đến sự tiến hóa bùng nổ trong ngành công nghiệp AI. Mọi người đặc biệt tò mò về cách các mô hình lớn có thể thúc đẩy ngành công nghiệp robot và trí tuệ nhân tạo. GO-1 của người sáng lập Zhiyuanhe Zhihuijun có vẻ là một điểm khởi đầu tốt. Rõ ràng, AI nhân tạo khó có thể được hoàn thành bởi một công ty độc lập. Chỉ có sự hợp tác nguồn mở mới thực sự có thể đạt được sự tiến hóa nhanh chóng của ngành công nghiệp robot.

Đăng bởi Leo Giang
BÀI VIẾT TRƯỚC
Bạn cũng có thể thích

Để lại bình luận của bạn:

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *