Las empresas que desean modelos multilingües sin tokenizadores recurren cada vez más a modelos de lenguaje a nivel de bytes para reducir la fragilidad en textos ruidosos o con pocos recursos. Para explorar este nicho y hacerlo práctico a escala, el Instituto Allen de IA (Ai2) presentó Bolmo.una nueva familia de modelos que aprovechan su Olmo 3 modelos “bytefiying” y reutilizando su columna vertebral y sus capacidades.

La compañía lanzó dos versiones, Bolmo 7B y Bolmo 1B, que son “el primer modelo de lenguaje a nivel de bytes completamente abierto”. según Ai2. La compañía dijo que los dos modelos tuvieron un desempeño competitivo (y en algunos casos superaron) a otros modelos basados ​​en caracteres y a nivel de bytes.

Los modelos de lenguaje a nivel de bytes operan directamente en bytes UTF-8 sin procesar, lo que elimina la necesidad de un vocabulario predefinido o un tokenizador. Esto les permite manejar de manera más confiable errores ortográficos, idiomas raros y texto no convencional, requisitos esenciales para la moderación, implementaciones perimetrales y aplicaciones multilingües.

Para las empresas que implementan IA en varios idiomas, entradas ruidosas de los usuarios o entornos restringidos, los modelos sin token ofrecen una forma de reducir la complejidad operativa. Bolmo de Ai2 es un intento de hacer que este enfoque sea práctico a escala, sin tener que volver a capacitarse desde cero.

Cómo funciona Bolmo y cómo se construyó

Ai2 dijo que entrenó los modelos Bolmo utilizando su combinación de datos Dolma 3, lo que ayudó a entrenar su Los modelos estrella de Olmoy algunos conjuntos de datos de código abierto y datos a nivel de personaje.

La compañía dijo que su objetivo “es proporcionar un modelo reproducible e inspeccionable para byteificar modelos de lenguaje de subpalabras fuertes de una manera que la comunidad pueda adoptar y ampliar”. Para lograr este objetivo, Ai2 publicará sus puntos de control, código y un artículo completo para ayudar a otras organizaciones a construir modelos a nivel de bytes sobre su ecosistema Olmo.

Debido a que entrenar un modelo a nivel de bytes completamente desde cero puede ser costoso, los investigadores de Ai2 eligieron un punto de control Olmo 3 7B existente para byteificar en dos etapas.

En la primera etapa, Ai2 se congeló. el transformador Olmo 3 para que solo entrenen ciertas partes, como el codificador y decodificador locales, el predictor de umbral y el cabezal de modelado de lenguaje. Está diseñado para ser “barato y rápido” y requiere sólo 9.800 millones de tokens.

El siguiente paso descongela el modelo y lo entrena con fichas adicionales. Ai2 dijo que el enfoque a nivel de bytes permite a Bolmo evitar los cuellos de botella de vocabulario que limitan los modelos tradicionales de subpalabras.

Fuerte desempeño entre sus pares

Los modelos de lenguaje a nivel de bytes no son tan convencionales como los modelos de lenguaje pequeño o los LLM, pero este es un campo de investigación en crecimiento. Meta lanzó su arquitectura BLT investigación del año pasado, con el objetivo de ofrecer un modelo robusto que procese datos sin procesar y no dependa de vocabularios fijos.

Otros modelos de investigación en este espacio incluir ByT5, MrT5 de Stanfordy Canino.

Ai2 evaluó a Bolmo utilizando su conjunto de evaluaciones, que cubre matemáticas, razonamiento STEM, respuesta a preguntas, conocimientos generales y codificación.

Bolmo 7B mostró un rendimiento sólido, superando puntos de referencia centrados en personajes como CUTE y EXECUTE, y también mejoró la precisión con respecto al LLM Olmo 3 básico.

El Bolmo 7B superó a modelos de tamaño comparable en codificación, matemáticas, control de calidad de opción múltiple y comprensión a nivel de caracteres.

Por qué las empresas podrían elegir modelos a nivel de bytes

Las empresas encuentran valor en una estructura de modelo híbrido, utilizando una combinación de modelos y tamaños de modelo.

Ai2 sostiene que las organizaciones también deberían considerar modelos a nivel de bytes, no sólo por su solidez y comprensibilidad multilingüe, sino porque “naturalmente se conectan a un ecosistema de modelo existente”.

“Una ventaja importante de la configuración jerárquica dinámica es que la compresión se convierte en un interruptor”, dijo la compañía.

Para las empresas que ya utilizan pilas de modelos heterogéneos, Bolmo sugiere que los modelos a nivel de bytes tal vez ya no sean puramente académicos. Al adaptar un modelo de subpalabra sólido en lugar de entrenar desde cero, Ai2 está señalando un camino de menor riesgo para las organizaciones que desean solidez sin abandonar la infraestructura existente.

Fuente