Técnica

DeepMind cree que su nuevo modelo Genie 3 World presenta un trampolín hacia AGI

Google Deepmind ha revelado a Genie 3, su último modelo de Foundation World que puede usarse para entrenar a los agentes de IA de uso general, una capacidad que el laboratorio de IA dice que es un trampolín crucial en el camino hacia la “inteligencia general artificial” o la inteligencia humana.

“Genie 3 es el primer modelo mundial interactivo de uso general interactivo en tiempo real”, dijo Shlomi Fruchter, directora de investigación de Deepmind, durante una conferencia de prensa. “Va más allá de los modelos del mundo estrecho que existían antes. No es específico para ningún entorno en particular. Puede generar mundos fotográficos e imaginarios, y todo lo demás”.

Todavía en la vista previa de la investigación y no disponible públicamente, Genie 3 se basa en su predecesor Genio 2 (que puede generar nuevos entornos para agentes) y el último modelo de generación de videos de Deepmind Veo 3 (que se dice que tiene una profunda comprensión de la física).

Créditos de imagen:Google DeepMind

Con un mensaje de texto simple, Genie 3 puede generar múltiples minutos de entornos 3D interactivos a una resolución de 720p a 24 cuadros por segundo, un salto significativo de los 10 a 20 segundos que el genio 2 podría producir. El modelo también presenta “eventos mundiales rápidos” o la capacidad de usar un aviso para cambiar el mundo generado.

Quizás lo más importante es que las simulaciones de Genie 3 permanecen físicamente consistentes con el tiempo porque el modelo puede recordar lo que generó anteriormente: una capacidad que DeepMind dice que sus investigadores no se programaron explícitamente en el modelo.

Fruchter dijo que si bien Genie 3 tiene implicaciones para las experiencias educativas, juego de azar o creación de prototipos de conceptos creativos, su desbloqueo real se manifestará en los agentes de capacitación para tareas de uso general, que según él es esencial para llegar a AGI.

“Creemos que los modelos mundiales son clave en el camino hacia AGI, específicamente para agentes encarnados, donde simular escenarios del mundo real es particularmente desafiante”, dijo Jack Parker-Holder, un científico investigador del equipo de fines abiertos de Deepmind, durante la información.

Evento de TechCrunch

San Francisco
|
27-29 de octubre de 2025

Créditos de imagen:Google DeepMind

Genie 3 supuestamente está diseñado para resolver ese cuello de botella. Al igual que Veo, no se basa en un motor de física codificado; En cambio, dice DeepMind, el modelo se enseña cómo funciona el mundo, cómo los objetos se mueven, caen e interactúan, al recordar lo que ha generado y razonando durante los horizontes de larga duración.

“El modelo es automático, lo que significa que genera un cuadro a la vez”, dijo Fruchter a TechCrunch en una entrevista. “Tiene que mirar hacia atrás a lo que se generó antes para decidir qué sucederá a continuación. Esa es una parte clave de la arquitectura”.

Ese recuerdo, dice la compañía, presta consistencia en los mundos simulados de Genie 3, lo que a su vez le permite desarrollar una comprensión de la física, similar a la forma en que los humanos entienden que un vidrio tambaleante en el borde de una mesa está a punto de caer, o que deben agacharse para evitar un objeto que caiga.

En particular, DeepMind dice que el modelo también tiene el potencial de llevar a los agentes de IA a sus límites, lo que los obliga a aprender de su propia experiencia, similar a cómo los humanos aprenden en el mundo real.

Como ejemplo, Deepmind compartió su prueba de Genie 3 con una versión reciente de su generalista Agente multiworldo instructable escalable (SIMA)instruyendo que busque un conjunto de objetivos. En un entorno, le pidieron al agente que realice tareas como “acercarse al compactador de basura verde brillante” o “caminar hacia la carretilla elevadora roja llena”.

“En los tres casos, el agente SIMA puede lograr el objetivo”, dijo Parker-Holder. “Simplemente recibe las acciones del agente. Por lo tanto, el agente toma la meta, ve el mundo simulado a su alrededor y luego toma las acciones en el mundo. El genio 3 simula hacia adelante, y el hecho de que sea capaz de lograrlo es porque el genio 3 sigue siendo consistente”.

Créditos de imagen:Google DeepMind

Dicho esto, Genie 3 tiene sus limitaciones. Por ejemplo, si bien los investigadores afirman que puede entender la física, la demostración que muestra a un esquiador que se desliza por una montaña no reflejó cómo la nieve se movería en relación con el esquiador.

Además, el rango de acciones que un agente puede tomar es limitado. Por ejemplo, los rápidos eventos mundiales permiten una amplia gama de intervenciones ambientales, pero no necesariamente son realizados por el propio agente. Y todavía es difícil modelar con precisión interacciones complejas entre múltiples agentes independientes en un entorno compartido.

Genie 3 también solo puede apoyar unos minutos de interacción continua, cuando las horas serían necesarias para un entrenamiento adecuado.

Aún así, el modelo presenta un paso convincente en la enseñanza de los agentes para ir más allá de reaccionar a las entradas, permitiendo que potencialmente planifiquen, exploren, busquen la incertidumbre y mejoren a través de la prueba y el error, el tipo de aprendizaje autónomo y autónomo que muchos dicen es clave para avanzar hacia la inteligencia general.

“Realmente no hemos tenido un momento de movimiento para los agentes encarnados, donde realmente pueden tomar acciones novedosas en el mundo real”, dijo Parker-Holder, refiriéndose al momento legendario en el juego de 2016 de Go entre el agente de IA de DeepMind, Alphago y el campeón mundial de World, Lee Sedol, en el que Alpha Go jugó un movimiento poco convencional y brillante que se convirtió en el simulador de AI para descubrir nuevas estrategias más allá de la comprensión humana.

“Pero ahora, podemos marcar el comienzo de una nueva era”, dijo.

Fuente

Related Articles

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Back to top button