El Instituto Allen de Inteligencia Artificial publica un agente web de código abierto que puede navegar y completar tareas en un navegador; Esto permite a los desarrolladores comprender lo que sucede de maneras que no son posibles en los sistemas cerrados de OpenAI, Google y Anthropic.
El nuevo representante del instituto sin fines de lucro con sede en Seattle es MolmoWebEstá construido sobre la familia de modelos multimodales Molmo 2 de Ai2. En lugar de depender del código de la página subyacente, funciona interpretando capturas de pantalla de páginas web como lo haría una persona, y luego decide y ejecuta acciones como hacer clic, escribir y desplazarse para completar una tarea.
El lanzamiento llegará el martes. Al cambiar a Ai2El director ejecutivo Ali Farhadi y los investigadores clave se dirigen a Microsoft para unirse al equipo de Superinteligencia de Mustafa Suleiman. El principal financiador de Ai2 está cambiando su enfoque del entrenamiento de modelos a aplicaciones de IA en el mundo real, pero todos los programas de Ai2 hasta 2026 siguen totalmente financiados.
Las principales empresas de tecnología están compitiendo para crear agentes de inteligencia artificial que puedan navegar por las computadoras e Internet en nombre de los usuarios. OpenAI, Google y Anthropic han lanzado sus propios agentes web o informáticos en los últimos meses.
antrópico recientemente adquirido Vercept, una startup con sede en Seattle fundada por veteranos de Ai2, estaba desarrollando una tecnología de herramienta de comprensión de pantalla similar para Mac y PC.
Ai2 dijo: “En muchos sentidos, los agentes web están donde estaban los Masters antes de Olmo; la comunidad necesita una base abierta sobre la cual construir”. dice en una publicación de blogSe refiere al proyecto de modelo de lenguaje abierto de gran tamaño que sirve como contrapunto a los modelos cerrados de OpenAI y otros.
MolmoWeb viene en dos tamaños, parámetros 4D y 8B. Ai2 dice que los modelos han obtenido sólidos resultados de evaluación comparativa, con agentes que superan a la versión 8B, que se basa en modelos propietarios mucho más grandes, incluido GPT-4o, en tareas básicas de navegación web, según el instituto.
Disponible en: abrazando la cara Y GitHubjunto con una demostración para probar el agente en varios sitios web compatibles. Leer más esta publicación de Ai2.














