Los agentes codificadores pueden generar miles de líneas de código en minutos. El problema: la mayor parte no se puede implementar. Infringe estándares internos, no supera los controles de cumplimiento o genera más trabajo de limpieza del que ahorra.
“Puedes generar una tonelada de código, pero eso no significa nada, ¿verdad? Tiene que ser código integrable y compatible, y no quieres crear más trabajo en el back-end sólo porque aceleras el proceso de generación de código en el front-end”, dijo Stephen Newman, CTO líder de ingeniería global de EY.
El equipo de desarrollo de productos de EY resolvió esto conectando agentes de codificación a sus estándares de ingeniería, repositorios de códigos y marcos de cumplimiento. El resultado: ganancias de productividad de 4 a 5 veces para los equipos que crean el conjunto de plataformas de auditoría, impuestos y finanzas de EY.
Pero los beneficios no provinieron sólo de activar una herramienta. El equipo de Newman pasó de 18 a 24 meses construyendo la base cultural y las integraciones técnicas que hicieron que la codificación semiautónoma funcionara a escala.
El primer paso fue cultural. EY comenzó con herramientas estilo GitHub Copilot, lo que permitió a los ingenieros sentirse cómodos con la ingeniería lista para usar y la IA asistida. Newman dijo que el aprendizaje clave fue hacer que la adopción de la IA sea orgánica en lugar de forzada por el liderazgo. “Es importante incorporar las capacidades de IA como una adopción orgánica básica en lugar de imponerlas a los usuarios”, dijo.
Los desarrolladores querían ir más allá de la generación de código y pasar a construirlo, implementarlo y ponerlo en funcionamiento. Pero los aumentos de productividad se han estancado sin una integración más profunda.
Newman se dio cuenta de que los agentes necesitaban acceso a los repositorios de códigos de EY, los estándares de ingeniería y los catálogos de fuentes para generar código implementable. Sin este “universo contextual”, como lo llama Newman, los agentes producen resultados genéricos que requieren una extensa reelaboración.
EY evaluó múltiples plataformas de agentes: Droides basados en Lovable, Replit y Factory IDE. En lugar de exigir una herramienta, el equipo de Newman midió la adopción, el uso y la productividad en las tres.
“No queríamos ser demasiado prescriptivos como equipo de liderazgo al identificar una herramienta y simplificarla”, dijo Newman. Los desarrolladores “realmente gravitaron y navegaron” hacia Factory, lo que se convirtió en la señal de que ofrecía valor real.
La adopción en la fábrica “despegó como la pólvora” una vez que pasó de prueba a piloto. EY tuvo que limitar el tráfico a Factory y Droids y restringir qué repositorios podían conectarse antes de obtener la aprobación de cumplimiento y seguridad.
La estructura de clasificación de la carga de trabajo.
El entusiasmo de los desarrolladores dejó en claro que EY necesitaba disciplina en torno a qué cargas de trabajo delegar a los agentes. El equipo de Newman separó las tareas en dos categorías:
Tareas de alta autonomía Los agentes manejan bien:
Revisión de código
Documentación
Corrección de defectos
Características del campo verde
Tareas complejas que todavía necesitan supervisión humana:
Refactorizadores a gran escala
Decisiones arquitectónicas
Integraciones entre sistemas
EY también ha cambiado los roles de desarrollador. En lugar de escribir todo el código ellos mismos, los ingenieros se convirtieron en orquestadores y dirigieron a los agentes a las bases de datos y repositorios correctos.
Con medidas de seguridad implementadas y una integración total en los repositorios de código, EY ha medido ganancias de eficiencia que van del 15 % al 60 % en diferentes personas en la fase de adopción temprana.
“Hemos dado un salto adelante en muchos de nuestros productos, donde hemos saltado a lo que yo llamo desarrollo de modelo de horizonte, donde tenemos ejecución de agentes semiautónomos a escala, tenemos un equipo de orquestadores en lugar de ejecutores, y tenemos las integraciones en el universo contextual”, dijo Newman.
Newman reconoció que es difícil atribuir los aumentos de productividad de 4 a 5 veces únicamente a los agentes codificadores. Las mejoras surgieron de prueba y error combinados con cambios culturales y de comportamiento en los equipos de desarrolladores.















