8 mil millones de tokens por día obligaron a AT&T a repensar la orquestación de la IA y a reducir los costos en un 90%

Por

25 febrero 2026

Cuando el uso promedio diario de tokens es de 8 mil millones por día, tienes un enorme problema de escala. Este fue el caso de AT&T, y el director de datos Andy Markus y su equipo reconocieron que simplemente no era factible (ni económico) forzar todo a través de grandes modelos de razonamiento. Entonces, al crear el asistente personal interno de Ask AT&T, reconstruyeron la capa de orquestación. El resultado: una pila de múltiples agentes construida sobre LangChain, donde los “superagentes” de modelos de lenguaje grandes dirigen a agentes “trabajadores” subyacentes más pequeños, realizando un trabajo más conciso y orientado a un propósito. Esta capa de orquestación flexible mejoró drásticamente la latencia, la velocidad y los tiempos de respuesta, dijo Markus a VentureBeat. En particular, su equipo logró ahorros de costos de hasta un 90 %. “Creo que el futuro de la IA agente consiste en muchos, muchos, muchos modelos de lenguaje pequeño (SLM)”, dijo. “Hemos descubierto que los modelos de lenguaje pequeños son tan precisos, si no tan precisos, como un modelo de lenguaje grande en un área de dominio determinada”.

Más recientemente, Markus y su equipo utilizaron esta pila rediseñada junto con Microsoft Azure para crear e implementar Ask AT&T Workflows, un creador de agentes gráfico de arrastrar y soltar para que los empleados automaticen tareas.

Los agentes utilizan un conjunto de herramientas patentadas de AT&T que manejan el procesamiento de documentos, la conversión de lenguaje natural a SQL y el análisis de imágenes. “A medida que se ejecuta el flujo de trabajo, son los datos de AT&T los que realmente impulsan las decisiones”, afirmó Markus. En lugar de hacer preguntas generales, “hacemos preguntas sobre nuestros datos y los aplicamos para asegurarnos de que se centren en nuestra información al tomar decisiones”. Aún así, un humano siempre supervisa la “reacción en cadena” de los agentes. Todas las acciones de los agentes se registran, los datos se aíslan durante todo el proceso y se aplica el acceso basado en roles cuando los agentes transfieren cargas de trabajo entre sí. “Las cosas suceden de forma autónoma, pero el humano a cargo sigue controlando y equilibrando todo el proceso”, dijo Markus.

No sobrecargues usando plantillas “intercambiables y seleccionables”

AT&T no adopta una mentalidad de “construir todo desde cero”, señaló Markus; se trata más de confiar en modelos que sean “intercambiables y seleccionables” y que “nunca reconstruyan una mercancía”. A medida que la funcionalidad madure en toda la industria, eliminarán gradualmente las herramientas desarrolladas internamente en lugar de opciones disponibles en el mercado, explicó. “Porque en este espacio las cosas cambian cada semana, si tenemos suerte, a veces varias veces por semana”, dijo. “Necesitamos poder pilotear, conectar y desconectar diferentes componentes”. Hacen evaluaciones “realmente rigurosas” de las opciones disponibles y de las suyas propias; por ejemplo, su Ask Data with Relational Knowledge Graph encabezó las clasificaciones de precisión de texto a SQL de Spider 2.0, y otras herramientas obtuvieron puntuaciones altas en el punto de referencia BERT SQL. Para las herramientas de agentes desarrolladas internamente, su equipo utiliza LangChain como marco central, afina los modelos con generación aumentada de recuperación (RAG) y otros algoritmos internos, y se asocia estrechamente con Microsoft, utilizando la funcionalidad de búsqueda del gigante tecnológico para su almacenamiento vectorial. Sin embargo, en última instancia, es importante no simplemente fusionar la IA del agente u otras herramientas avanzadas en todo por el simple hecho de hacerlo, aconsejó Markus. “A veces complicamos demasiado las cosas”, dijo. “A veces veo una solución que está demasiado diseñada”. En cambio, los constructores deberían preguntarse si una determinada herramienta realmente necesita ser un agente. Esto podría incluir preguntas como: ¿Qué nivel de precisión se podría lograr si fuera una solución generativa de un solo giro más simple? ¿Cómo podrían dividirlo en partes más pequeñas, donde cada parte podría entregarse “con mucha mayor precisión”?, como dijo Markus. La precisión, el costo y la capacidad de respuesta de las herramientas deben ser principios fundamentales. “Aunque las soluciones se han vuelto más complicadas, estos tres principios básicos todavía nos brindan mucha orientación”, afirmó.

Cómo lo utilizan realmente 100.000 empleados

Ask AT&T Workflows se ha implementado para más de 100.000 empleados. Más de la mitad dice que lo usa todos los días, y quienes lo adoptan activamente informan ganancias de productividad de hasta el 90%, dijo Markus. “Estamos analizando si utilizan el sistema repetidamente. Porque la adherencia es un buen indicador de éxito”, dijo. El agente de la construcción ofrece “dos turnos” para los empleados. Uno de ellos es el código profesional, donde los usuarios pueden programar Python entre bastidores, dictando reglas sobre cómo deben trabajar los agentes. El otro no tiene código y presenta una interfaz visual de arrastrar y soltar para una “experiencia de usuario muy liviana”, dijo Markus. Curiosamente, incluso los usuarios experimentados optan por esta última opción. En un hackathon reciente dirigido a una audiencia técnica, los participantes pudieron elegir entre ambos, y más de la mitad eligió código bajo. “Esto fue una sorpresa para nosotros, porque todas estas personas eran muy competentes en el aspecto de la programación”, dijo Markus. Los empleados utilizan agentes en una variedad de roles; por ejemplo, un ingeniero de redes podría crear una serie de ellos para abordar alertas y volver a conectar a los clientes cuando pierden la conectividad. En este escenario, un agente puede correlacionar la telemetría para identificar el problema de la red y su ubicación, extraer registros de cambios y verificar problemas conocidos. Luego, puede abrir un ticket problemático. Luego, otro agente podría encontrar formas de resolver el problema e incluso escribir código nuevo para solucionarlo. Una vez resuelto el problema, un tercero puede redactar un resumen con medidas preventivas para el futuro. “EL [human] El ingeniero se encargaría de todo esto, asegurándose de que los agentes funcionaran como se esperaba y tomaran las acciones correctas”, dijo Markus.

La codificación impulsada por IA es el futuro

Esa misma disciplina de ingeniería (dividir el trabajo en partes más pequeñas y específicas) ahora está remodelando la forma en que AT&T escribe su propio código, a través de lo que Markus llama “codificación impulsada por IA”. Comparó el proceso con RAG; Los desarrolladores utilizan métodos de codificación ágiles en un entorno de desarrollo integrado (IDE), junto con arquetipos de construcción “específicos de roles” que determinan cómo debe interactuar el código. El resultado no es un código suelto; el código está “muy cerca del grado de producción” y puede alcanzar esa calidad de una vez. “Todos trabajamos con vibe coding, donde tenemos una especie de editor de código de agente”, señala Markus. Pero la codificación impulsada por IA “elimina muchas de las iteraciones que se pueden ver en la codificación vibe”. Él ve esta técnica de codificación como un “reinicio tangible” del ciclo de desarrollo de software, que en última instancia acorta los plazos de desarrollo y aumenta la producción de código de grado de producción. Los equipos no técnicos también pueden participar en la acción, utilizando instrucciones en lenguaje sencillo para crear prototipos de software. Su equipo, por ejemplo, utilizó la técnica para crear un producto de datos curado internamente en 20 minutos; Sin IA, la construcción tardaría seis semanas. “Desarrollamos software con él, modificamos software con él, hacemos ciencia de datos con él, hacemos análisis de datos con él, hacemos ingeniería de datos con él”, dijo Markus. “Así que es un punto de inflexión”.

Fuente

8 mil millones de tokens por día obligaron a AT&T a repensar la orquestación de la IA y a reducir los costos en un 90%

No sobrecargues usando plantillas “intercambiables y seleccionables”

Cómo lo utilizan realmente 100.000 empleados

La codificación impulsada por IA es el futuro

Últimas noticias

Casey Means, candidato a Cirujano General, está enojado por las vacunas

Vinicius Jr. Ayuda al Real Madrid a progresar en el contexto...

Travis Kelce elogia al equipo de hockey masculino de EE. UU....

Nvidia tiene otro trimestre récord en medio de un gasto de...

Tarik Skubal de los Tigres limita su tiempo con el equipo...

The Roar Goes Dark, Craig Tiley lleva a la confusión entre...

Los huéspedes de Vrbo pueden pagar una tarifa para obtener reembolsos...

Kalshi desentraña el escándalo de uso de información privilegiada. Comenzó con...

Cantó el himno nacional durante el karaoke. Ahora encarcelado

Crispin Glover, actor de ‘Regreso al futuro’, demandado por agresión

BlueScope rechaza la propuesta revisada de Steel Dynamics

Real Madrid 2 – 1 Benfica

Los ejecutivos de restaurantes esperan otro entorno volátil en 2026

Nvidia alcanza el récord del cuarto trimestre de 26 con 68...

Categoría