Deepseek lanza el modelo de ‘atención escasa’ que reduce los costos de la API por la mitad

Investigadores de Veterano El lunes, lanzó un nuevo modelo experimental llamado V3.2-Exp, diseñado para tener costos de inferencia dramáticamente más bajos cuando se usa en operaciones de contexto largo. Deepseek anunció el modelo con Una publicación en la cara abrazadatambién publicando Un documento académico vinculado en Github.
La característica más importante del nuevo modelo se llama atención escasa de Deepseek, un intrincado sistema descrito en detalle en el diagrama a continuación. En esencia, el sistema utiliza un módulo llamado “indexador de rayos” para priorizar extractos específicos desde la ventana de contexto. Después de eso, un sistema separado llamado “Sistema de selección de tokens de grano fino” elige tokens específicos dentro de esos extractos para cargarse en la ventana de atención limitada del módulo. Tomados en conjunto, permiten que los modelos de atención escasa operen en largas partes de contexto con cargas de servidor relativamente pequeñas.
Para las operaciones de contexto a largo plazo, los beneficios del sistema son significativos. Las pruebas preliminares de Deepseek descubrieron que el precio de una simple llamada API podría reducirse hasta la mitad en situaciones de contexto largo. Se requerirán pruebas adicionales para construir una evaluación más sólida, pero debido a que el modelo es de peso abierto y está disponible libremente en la cara abrazada, no pasará mucho tiempo antes de que las pruebas de terceros puedan evaluar las afirmaciones hechas en el documento.
El nuevo modelo de Deepseek es una de una serie de avances recientes que abordan el problema de los costos de inferencia, esencialmente, los costos del servidor de operar un modelo de IA prevenido, a diferencia del costo de capacitación. En el caso de Deepseek, los investigadores estaban buscando formas de hacer que la arquitectura del transformador fundamental funcione de manera más eficiente, y descubriendo que hay mejoras significativas para hacer.
Con sede en China, Deepseek ha sido una figura inusual en el auge de la IA, particularmente para aquellos que ven la investigación de la IA como una lucha nacionalista entre los Estados Unidos y China. La compañía hizo olas A principios de año Con su modelo R1, capacitado utilizando principalmente el aprendizaje de refuerzo a un costo mucho menor que sus competidores estadounidenses. Pero el modelo no ha provocado una revolución mayorista en la capacitación de IA, como algunos predijeron, y la compañía ha retirado del centro de atención en los meses posteriores.
Es poco probable que el nuevo enfoque de “escasa atención” produzca el mismo alboroto que R1, pero aún podría enseñar a los proveedores de los Estados Unidos algunos trucos muy necesarios para ayudar a mantener bajos los costos de inferencia.