¿Qué pasó?

  • El 7 de marzo, el cofundador de Zhiyuan Robotics, Peng Zhihui, adelantó: "Algo grande llegará la próxima semana".
  • Internet se volvió loco. Más de 100.000 personas se conectaron para ver de qué se trataba el revuelo.
  • El 10 de marzo, AGIbot reveló Operador Genio-1 (GO-1) — su primer modelo base encarnado universal y a gran escala.

Como resultado, la mañana del 10 de marzo, AGIbot Robotics reveló la solución: Genie Operator-1 (GO-1), el primer modelo base universal a gran escala de AGIbot. En el video, el robot puede tostar, preparar café y llevar el desayuno a tus manos sin ningún problema.

Los funcionarios afirman que GO-1 no solo tiene fuertes capacidades de generalización, sino que también puede adaptarse rápidamente a nuevos escenarios y nuevas tareas con muy pocos datos o incluso cero muestras. A finales de 2024, AGIbot lanzó AgiBot World, un conjunto de datos a gran escala y de alta calidad que contiene más de un millón de trayectorias, abarca 217 tareas y cinco escenarios principales. Gracias a esta enorme mina de oro de datos, GO-1 puede lograr un entrenamiento eficiente y una amplia generalización en poco tiempo. Se puede decir que AgiBot World es el "héroe invisible" detrás de GO-1. Entonces, ¿cómo funciona realmente el modelo base del robot GO-1 y qué significa para la industria de la robótica?

Según declaraciones oficiales, Además de ampliar las capacidades atléticas del robot, GO-1 fortalece aún más importante sus capacidades de IA, aumentando así en gran medida el valor práctico del robot. .

En el video de demostración publicado por AGIbot, GO-1 demostró una gran capacidad de aprendizaje: al ver videos de operaciones humanas, puede dominar rápidamente nuevas habilidades y aplicarlas eficientemente en tareas reales. Por ejemplo, el video muestra la potente capacidad de seguimiento de objetos de GO-1: incluso si la taza se mueve aleatoriamente, puede completar el vertido con precisión. En segundo lugar, GO-1 ha demostrado una gran capacidad de generalización.

A diferencia de los modelos tradicionales que requieren cantidades masivas de datos para el entrenamiento, GO-1 puede lograr una generalización rápida con solo cientos de piezas de datos Por ejemplo, en la demostración, tras completar la tarea de verter agua, GO-1 puede cambiar sin problemas a una nueva tarea de tostar pan y untar mermelada sin necesidad de entrenamiento adicional. Esta habilidad no solo demuestra la adaptabilidad de GO-1 a diversas tareas, sino que también refleja su principal ventaja: el aprendizaje minimalista.

Al mismo tiempo, la capacidad de cuerpo cruzado del GO-1 proporciona un sólido soporte técnico para la colaboración entre varios robots. En el video publicado por AGIbot, se muestra una escena en la que dos robots trabajan juntos para completar una tarea compleja: uno recibe a los clientes en la recepción y el otro se centra en preparar el café. Esta colaboración refleja la eficiencia y la adaptabilidad del GO-1.

Los modelos tradicionales incorporados suelen diseñarse para un solo cuerpo de robot (incorporación de hardware), lo que conlleva dos problemas importantes: baja utilización de datos y una implementación limitada. Sin embargo, GO-1 puede habilitar múltiples cuerpos y migrar rápidamente entre diferentes formas de robot, lo que mejora significativamente la eficiencia de utilización de datos y reduce los costos de implementación. .

Cabe mencionar que el modelo grande GO-1 también puede utilizarse con un conjunto completo de sistemas de reflujo de datos AGIbot, que pueden evolucionar y aprender continuamente de los datos problemáticos encontrados durante la ejecución real. Este sistema puede capturar datos problemáticos del proceso de ejecución real, especialmente errores de ejecución o situaciones anormales, y mejorar continuamente el rendimiento de GO-1 mediante la revisión manual y la optimización del modelo.

Por ejemplo, en el escenario de demostración, el robot cometió un error al colocar una taza de café. El sistema redistribuirá inmediatamente los datos relevantes y optimizará el modelo de forma específica para garantizar una mayor precisión en la siguiente operación.

Al mismo tiempo, el modelo grande GO-1 también agrega un nuevo método de interacción de voz para el robot, lo que facilita enormemente a los usuarios expresar libremente sus necesidades en escenarios reales.

La razón detrás del sorprendente rendimiento del GO-1 es su arquitectura de modelo diferente.

GO-1 utiliza la arquitectura Visión-Lenguaje-Acción Latente (ViLLA), que combina un modelo grande multimodal (VLM) y un sistema experto híbrido (MoE) y se divide en tres módulos que trabajan juntos:

VLM (Very Large Multimodal Model): basado en InternVL-2B, procesa señales visuales, de fuerza y de lenguaje de múltiples vistas para lograr la percepción de la escena y la comprensión de comandos.

Planificador latente: al predecir tokens de acción latente, transfiere conocimiento de acción desde datos heterogéneos de Internet a tareas de robot, solucionando así el problema de la falta de datos reales de máquinas de alta calidad.

Experto en acciones: genera secuencias de acciones flexibles y de alta frecuencia basadas en el modelo de difusión para garantizar una ejecución precisa.

Los expertos de la industria creen que thatGO-1La arquitectura del modelo es muy simple, sin mucha innovación. 

Integra principalmente métodos de trabajo, datos y formación existentes. En comparación con el modelo anterior, la única novedad es una capa de Latent Planner, pero son solo unas pocas capas de Transformer y no es complicado.

Sui Wei, vicepresidente de Digua Robotics, afirmó que el trabajo de AGIbot aborda directamente el problema de la industria: los problemas de datos, y tiene un gran impacto en la promoción de la industria de la inteligencia incorporada. Sin embargo, en comparación con el modelo a gran escala, lo más valioso aquí es el conjunto de datos.


Según informes, el soporte de GO-1 es un conjunto de datos robóticos de gran escala llamado AgiBot World. Este conjunto de datos contiene más de un millón de trayectorias, recopiladas por 100 robots reales, que abarcan más de 100 escenarios reales y 217 tareas específicas.


El conjunto de datos se basa en la plataforma de hardware AgiBot G1 y es recopilado por más de 100 robots homogéneos. Proporciona datos operativos de robots de código abierto de alta calidad y facilita la resolución de tareas complejas en diversos escenarios reales. La última versión del conjunto de datos AgiBot World contiene un millón de trayectorias con una duración total de 2976,4 horas, que abarcan 87 habilidades y 106 escenarios.


Mientras tanto, AgiBot World va más allá de las tareas básicas de mesa en entornos de laboratorio, como agarrar y colocar, para centrarse en escenarios del mundo real que involucran manipulación con dos brazos, manos diestras y tareas colaborativas.


En comparación con el conjunto de datos existente en la industria (Open X-Embodiment), los datos de AGIbot son más numerosos y presentan mejor calidad, estandarización y consistencia. El conjunto de datos de Open X-Embodiment contiene diversas formas de ontologías, y la forma de los datos varía considerablemente, lo que dificulta considerablemente el entrenamiento del modelo.

Sin embargo, aunque el conjunto de datos de AGIbot ha alcanzado una cierta escala, todavía es sólo un pequeño punto de partida y no ha conducido a una mejora significativa en las capacidades del robot.
Los resultados de la prueba muestran que el rendimiento del GO-1 ha mejorado mucho en comparación con los modelos anteriores, pero la tasa de éxito al verter agua, limpiar mesas y reponer bebidas aún es menor que la del 80%.


Sui Wei afirmó que, en esta etapa, el modelo no es el principal obstáculo para la industria robótica. Los verdaderos desafíos residen en dos aspectos: primero, la convergencia del hardware; por ejemplo, los diseños biónicos como pinzas, manos diestras y sensores táctiles aún no se han estandarizado; segundo, dado que el cuerpo principal no puede promocionarse a gran escala, la cantidad de datos siempre es insuficiente.


Actualmente, en términos de recopilación de datos, la industria robótica se basa principalmente en tecnología de teleoperación, incluyendo equipos de realidad virtual (RV), equipos de correa isomórfica y equipos de captura de movimiento. Sin embargo, el costo de la recopilación de datos en la industria robótica es elevado y carece de un claro respaldo comercial, lo que dificulta la rápida ejecución del ciclo cerrado de datos.


En comparación, el coste de la recopilación de datos en la industria de la conducción autónoma es prácticamente nulo. El sistema de percepción a bordo puede transmitir datos continuamente, formando un circuito cerrado de datos eficiente.


Al final del video de lanzamiento del GO-1, todos encontraron una sorpresa inesperada: AGIbot Robotics presentó un avance del próximo robot inteligente incorporado, aunque aún no se ha anunciado la fecha exacta. Sin embargo, AGIbot publicó inmediatamente en Weibo que "mañana habrá una sorpresa", y esta noticia llenó de nuevo de expectativas a la industria.


El auge de los modelos a gran escala ha impulsado una evolución explosiva en la industria de la IA. La gente siente especial curiosidad por cómo estos modelos pueden impulsar las industrias de la robótica y la inteligencia artificial. El GO-1 de Zhihuijun, fundador de Zhiyuanhe, parece ser un buen punto de partida. Obviamente, la IA artificial es difícil de desarrollar por una empresa independiente. Solo la cooperación en código abierto puede lograr la rápida evolución de la industria de la robótica.

Publicado por León Jiang
PUBLICACIÓN ANTERIOR
También te puede interesar

Deja tu comentario:

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *