A medida que las organizaciones dependen cada vez más de conocimientos basados en datos para dar forma a las decisiones sobre productos, la infraestructura subyacente para big data y aprendizaje automático se ha convertido en una ventaja competitiva crítica. El desafío ya no es solo modelar, sino crear sistemas escalables, confiables y eficientes que puedan manejar petabytes de datos y al mismo tiempo empoderar a los desarrolladores. La transición de herramientas de datos aisladas a plataformas unificadas de extremo a extremo representa un cambio significativo en la forma en que las empresas abordan las operaciones de aprendizaje automático.
Surya Bhaskar Reddy Karri, un ingeniero de software con amplia experiencia en el desarrollo y optimización de herramientas de productividad para desarrolladores para big data e infraestructura de aprendizaje automático en empresas como Pinterest, ha desempeñado un papel decisivo en esta evolución. Su trabajo en plataformas como MLDeploy y ModelHub destaca el movimiento de la industria hacia sistemas integrados que priorizan la experiencia del desarrollador, la automatización y la estabilidad operativa. Las ideas de Karri reflejan una tendencia más amplia hacia el tratamiento de la infraestructura interna como un producto, diseñado para servir a los ingenieros y científicos de datos que la utilizan todos los días.
Evolucionando hacia plataformas unificadas
El camino hacia la construcción de una infraestructura de datos a gran escala a menudo comienza con un objetivo simple: aprovechar los datos para mejorar la experiencia del usuario. Sin embargo, los obstáculos prácticos para lograr este objetivo pueden ser inmensos, lo que desplaza el enfoque de la ciencia de datos a la ingeniería de datos. Desde el principio, Karri reconoció este punto de fricción fundamental en la industria.
Explica: “Al principio de mi carrera, me fascinaba cómo los conocimientos basados en datos podían influir en las decisiones de productos y las experiencias de los usuarios a escala. Pero rápidamente me di cuenta de que el mayor obstáculo no era el modelado en sí, sino la fricción en el acceso, la gestión y la puesta en funcionamiento de los datos”. Esta comprensión guió su trabajo en la construcción de herramientas fundamentales que abstraen la complejidad.
Con el tiempo, su enfoque ha madurado, desde la creación de soluciones autónomas hasta la ingeniería de ecosistemas integrales. Karri señala: “Mi enfoque ha evolucionado desde la creación de sistemas de datos aislados hasta la arquitectura de plataformas unificadas de extremo a extremo que integran el descubrimiento, la orquestación y la gestión de datos. Gestión del ciclo de vida del aprendizaje automático.” Este cambio estratégico es crucial para medir y mejorar la velocidad del desarrollador, un factor clave en la innovación que a menudo se monitorea mediante métricas de entrega de software.
Simplificando la implementación del modelo
Uno de los obstáculos más importantes en el ciclo de vida del aprendizaje automático es la brecha entre el desarrollo de modelos y la implementación de producción. Los flujos de trabajo tradicionales a menudo implican transferencias manuales entre científicos de datos, ingenieros de aprendizaje automático y equipos de infraestructura, lo que genera cuellos de botella e inconsistencias. Desarrollar capas de herramientas estandarizadas es esencial para cerrar esta brecha y acelerar la innovación.
Para solucionar esto, Karri lideró el diseño de MLDeploy, una plataforma diseñada para agilizar todo el proceso. “MLDeploy fue diseñado para hacer que la implementación del aprendizaje automático sea tan simple como implementar código”, afirma. Este objetivo requería un sistema que pudiera automatizar el ciclo de vida del modelo de principio a fin.
Según Karri, “la plataforma se integra perfectamente con la plataforma informática interna y los sistemas de conjuntos de datos de Pinterest, lo que garantiza la reproducibilidad, el control de versiones y una fácil reversión”. Esta integración es fundamental para los MLOps modernos, donde patrones de diseño para la implementación del modelo y un claro contrato de implementación Estandarice la forma en que se gestionan los modelos.
Afrontar los desafíos a escala empresarial
A medida que los sistemas de aprendizaje automático crecen para satisfacer las necesidades de toda la empresa, surgen nuevos desafíos relacionados con la gestión de recursos, la orquestación de trabajos y la resiliencia del sistema. A esta escala, la eficiencia no se trata sólo de rendimiento, sino también de contención de costos y estabilidad en miles de procesos simultáneos. Para abordar estos problemas es necesario centrarse en el diseño tolerante a fallos y la asignación inteligente de recursos.
Karri identifica tres desafíos principales: “A escala empresarial, los principales desafíos residen en la orquestación, la contención de recursos y la observabilidad del sistema”. La gestión eficiente de recursos valiosos como las GPU es un aspecto fundamental de esto. Él profundiza en la contención de recursos y afirma: “La utilización eficiente de las GPU y los clústeres de cómputo es fundamental para minimizar la capacidad inactiva y los costos”.
Esta es una preocupación importante de la industria dada la alto costo de la computación con IA para entrenar modelos grandes. Las diferencias arquitectónicas entre hardware como NVIDIA H100 y A100 Las GPU resaltan aún más la importancia de diseñar sistemas que puedan aprovechar el hardware más eficiente para una tarea determinada.
Optimización del rendimiento de la canalización de datos
La velocidad y la escalabilidad de los canales de datos impactan directamente la capacidad de una organización para tomar decisiones oportunas basadas en datos. Los cuellos de botella en el procesamiento de datos pueden retrasar el análisis y ralentizar el ciclo de retroalimentación para mejorar los productos. Las estrategias centradas en la observabilidad, el procesamiento adaptativo y el almacenamiento en caché inteligente se han vuelto esenciales para mantener un alto rendimiento en entornos de datos complejos.
El trabajo de Karri se ha centrado en revolucionar la forma en que se consultan y analizan los datos a escala. “Mi estrategia se centra en la observabilidad, la programación adaptativa y la optimización de consultas”, afirma. Esto implica incorporar mecanismos sofisticados directamente en la plataforma de datos para reducir el trabajo redundante y acelerar los resultados.
“Además de la usabilidad, incorporamos perfiles de ejecución de consultas y capas de almacenamiento en caché, lo que reduce el cálculo repetido y mejora el rendimiento de la canalización de datos de un extremo a otro”, agrega Karri. Este enfoque se alinea con técnicas avanzadas de bases de datos como procesamiento de consultas adaptativo y almacenamiento en caché dinámico para consultas continuas que utilizan Algoritmos de caché para optimizar el rendimiento.
Flexibilidad y arquitectura sostenible
Una tensión central en el diseño de herramientas de infraestructura es el equilibrio entre flexibilidad y robustez. Una plataforma debe ser lo suficientemente adaptable para admitir una amplia gama de casos de uso y marcos, pero lo suficientemente estructurada para ser sostenible y escalable. La clave para resolver este conflicto radica en el diseño modular y las interfaces claramente definidas que eviten el acoplamiento monolítico.
Karri aboga por una arquitectura construida sobre componentes componibles. “La flexibilidad y la robustez a menudo entran en conflicto, por lo que la clave es la arquitectura modular y las capas de abstracción bien definidas”, explica. Esta filosofía se aplicó en la creación de MLHub, una plataforma unificada de ciclo de vida de ML.
“Yo diseñé y construí [it] con componentes reutilizables, plug-and-play en sus módulos principales”, señala Karri. Este principio se refleja en los microservicios, donde Patrones de evolución de API se utilizan para gestionar cambios y en sistemas de datos que utilizan contratos de datos centrados en el productor para garantizar la estabilidad.
Lecciones de la ampliación de la infraestructura
Crear y ampliar la infraestructura de aprendizaje automático en una empresa como Pinterest proporciona lecciones valiosas que se pueden aplicar en toda la industria. El éxito de dichas plataformas depende no sólo del desempeño técnico, sino también de su usabilidad y de las estructuras de gobernanza construidas en torno a ellas. Tratar la infraestructura como un producto, con ingenieros y científicos de datos como usuarios finales, es una mentalidad fundamental para el éxito.
Reflexionando sobre su experiencia, Karri enfatiza un enfoque centrado en el usuario: “Priorizar la experiencia del desarrollador desde el principio. El éxito de la infraestructura depende no sólo del rendimiento, sino también de la usabilidad”.
Otra conclusión importante es la necesidad de un diseño proactivo que anticipe el fracaso. “Los sistemas distribuidos fallan de manera impredecible; el aislamiento de fallas y los mecanismos de autorreparación son esenciales”, aconseja. Esto se alinea con los principios detrás de la Métricas de DORA y el uso de un Objetivo de nivel de servicio (SLO) para mantener la estabilidad.
El futuro de la infraestructura de ML
De cara al futuro, la próxima generación de infraestructura de aprendizaje automático está preparada para volverse más inteligente, más autónoma y perfectamente integrada en los flujos de trabajo de los desarrolladores. El objetivo es abstraer aún más la complejidad subyacente, permitiendo a los ingenieros centrarse en la innovación en lugar de la orquestación. Esta evolución estará impulsada por los avances en la automatización y el desarrollo asistido por IA.
Karri imagina un futuro en el que los sistemas serán en gran medida autogestionados. “La próxima ola de infraestructura de aprendizaje automático será autónoma, declarativa y consciente de los costos”, predice.
Una parte clave de esto será la optimización automatizada. “Negociación en tiempo real[ff] Los motores equilibrarán automáticamente la precisión, la latencia y el costo”, continúa Karri, un concepto explorado en técnicas que navegan por el compensación precisión-costo.
El objetivo es hacer invisible el mecanismo detrás del aprendizaje automático. Como afirma Karri: “El objetivo es hacer que la infraestructura de aprendizaje automático sea invisible pero inteligente, permitiendo a los ingenieros centrarse completamente en la innovación, no en la orquestación”. Lograr esto requerirá innovación continua en Servicio de inferencia rentable y compatible con SLO. sistemas.
A medida que las empresas sigan ampliando sus capacidades de IA y ML, los principios de diseño modular, centralidad en el desarrollador y gobernanza automatizada serán clave. El trabajo de ingenieros como Karri en la construcción de estas plataformas fundamentales es fundamental para convertir la promesa de la toma de decisiones basada en datos en una realidad práctica y sostenible.














