A medida que los LLM continúan mejorando, ha habido cierta discusión en la industria sobre la necesidad continua de herramientas de etiquetado de datos independientes, ya que los LLM son cada vez más capaces de trabajar con todo tipo de datos. signo humano, el principal proveedor comercial detrás del programa de código abierto Label Studio, tiene una visión diferente. En lugar de ver menos demanda de etiquetado de datos, la empresa está viendo más.
A principios de este mes, HumanSignal adquirió Erud AI y lanzó sus Frontier Data Labs físicos para la recopilación de nuevos datos. Pero crear datos es sólo la mitad del desafío. Hoy, la empresa se enfrenta a lo que sigue: demostrar que los sistemas de IA entrenados con estos datos realmente funcionan. Las nuevas capacidades de evaluación de agentes multimodales permiten a las empresas validar agentes de IA complejos generando aplicaciones, imágenes, códigos y videos.
“Si nos centramos en los segmentos empresariales, entonces todas las soluciones de IA que están creando aún deben ser evaluadas, que es sólo otra palabra para el etiquetado de datos por parte de humanos y más aún por expertos”, dijo el cofundador y director ejecutivo de HumanSignal, Michael Malyuk, a VentureBeat en una entrevista exclusiva.
La intersección entre el etiquetado de datos y la evaluación de la IA del agente
Tener los datos correctos es fantástico, pero ese no es el objetivo final de una empresa. La dirección del etiquetado de datos moderno es la evaluación.
Es un cambio fundamental en lo que las empresas necesitan validar: no si su modelo clasificó correctamente una imagen, sino si su agente de IA tomó buenas decisiones en una tarea compleja de múltiples pasos que involucra razonamiento, uso de herramientas y generación de código.
Si la evaluación consiste simplemente en etiquetar datos para los resultados de la IA, entonces el cambio de modelos a agentes representa un cambio radical en lo que debe etiquetarse. Mientras que el etiquetado de datos tradicional puede implicar etiquetar imágenes o categorizar texto, la evaluación de agentes requiere juzgar cadenas de razonamiento de varios pasos, decisiones de selección de herramientas y resultados multimodales, todo dentro de una única interacción.
“Hay una necesidad muy fuerte no sólo de humanos en el circuito, sino también de expertos en el circuito”, dijo Malyuk. Señaló aplicaciones de alto riesgo, como la asistencia sanitaria y el asesoramiento jurídico, como ejemplos en los que el coste de los errores sigue siendo prohibitivamente alto.
La conexión entre el etiquetado de datos y la evaluación de la IA va más allá de la semántica. Ambas actividades requieren las mismas capacidades fundamentales:
Interfaces estructuradas para el juicio humano: Ya sea que los revisores estén etiquetando imágenes para datos de entrenamiento o evaluando si un agente ha orquestado correctamente múltiples herramientas, necesitan interfaces diseñadas específicamente para capturar sus revisiones de manera sistemática.
Consenso de múltiples revisores: Los conjuntos de datos de entrenamiento de alta calidad requieren múltiples etiquetadores que concilien los desacuerdos. Una evaluación de alta calidad requiere lo mismo: múltiples expertos evaluando los resultados y resolviendo diferencias de juicio.
Experiencia en el dominio a escala: La formación de sistemas de IA modernos requiere expertos en la materia, no sólo empleados que hacen clic en botones. Evaluar los resultados de la producción de IA requiere el mismo conocimiento profundo.
Bucles de retroalimentación en sistemas de IA: Los datos de entrenamiento etiquetados alimentan el desarrollo del modelo. Los datos de evaluación impulsan la mejora continua, el ajuste y la evaluación comparativa.
Evaluación del seguimiento completo de los agentes
El desafío a la hora de evaluar agentes no es sólo el volumen de datos, sino también la complejidad de lo que hay que evaluar. Los agentes no producen resultados de texto sin formato; generan cadenas de razonamiento, seleccionan herramientas y producen artefactos en múltiples modalidades.
Las nuevas funciones de Label Studio Enterprise cumplen con los requisitos de validación del agente:
Inspección de seguimiento multimodal: La plataforma proporciona interfaces unificadas para revisar seguimientos completos de la ejecución del agente: pasos de razonamiento, llamadas a herramientas y resultados entre modalidades. Esto soluciona un problema común en el que los equipos deben analizar flujos de registros separados.
Evaluación interactiva de varios turnos: Los evaluadores evalúan los flujos de conversación donde los agentes mantienen el estado en múltiples turnos, validando el seguimiento del contexto y la interpretación de la intención a lo largo de la secuencia de interacción.
Agente Arena: Marco de evaluación comparativa para probar diferentes configuraciones de agentes (modelos base, modelos de aviso, implementaciones de barreras de seguridad) en condiciones idénticas.
Rúbricas de evaluación flexibles: Los equipos definen criterios de evaluación específicos del dominio mediante programación en lugar de utilizar métricas predefinidas, lo que respalda requisitos como la precisión de la comprensión, la idoneidad de la respuesta o la calidad de los resultados para casos de uso específicos.
La evaluación de agentes es el nuevo campo de batalla para los proveedores de etiquetado de datos
HumanSignal no es el único que reconoce que la evaluación de agentes representa la siguiente fase del mercado del etiquetado de datos. Los competidores están realizando cambios similares a medida que la industria responde a los cambios tecnológicos y las perturbaciones del mercado.
Caja de etiquetas lanzó su Assessment Studio en agosto de 2025, centrado en evaluaciones basadas en rúbricas. Al igual que HumanSignal, la empresa se está expandiendo más allá del etiquetado de datos tradicional hacia la validación de IA de producción.
El panorama competitivo general para el etiquetado de datos cambió drásticamente en junio, cuando Meta invirtió 14.300 millones de dólares por una participación del 49% en Scale AI, el anterior líder del mercado. El acuerdo provocó un éxodo de algunos de los mayores clientes de Scale. HumanSignal aprovechó la disrupción y Malyuk afirmó que su empresa logró ganar varios acuerdos competitivos el último trimestre. Malyuk cita la madurez de la plataforma, la flexibilidad de configuración y la atención al cliente como diferenciadores, aunque los competidores hacen afirmaciones similares.
Qué significa esto para los creadores de IA
Para las empresas que construyen sistemas de producción de IA, la convergencia del etiquetado de datos y la infraestructura de evaluación tiene varias implicaciones estratégicas:
Comience con la verdad básica. Invertir en la creación de conjuntos de datos etiquetados de alta calidad con múltiples revisores expertos que resuelven desacuerdos rinde dividendos durante todo el ciclo de vida del desarrollo de la IA, desde la capacitación inicial hasta la mejora continua de la producción.
La observabilidad resulta necesaria, pero insuficiente. Si bien monitorear lo que hacen los sistemas de IA sigue siendo importante, las herramientas de observabilidad miden la actividad, no la calidad. Las empresas necesitan una infraestructura de evaluación dedicada para evaluar los resultados e impulsar mejoras. Estos son problemas diferentes que requieren diferentes habilidades.
La infraestructura de datos de capacitación también sirve como infraestructura de evaluación. Las organizaciones que han invertido en plataformas de etiquetado de datos para el desarrollo de modelos pueden ampliar esta misma infraestructura para la evaluación de la producción. Estos no son problemas separados que requieren herramientas separadas: son el mismo flujo de trabajo fundamental aplicado en diferentes etapas del ciclo de vida.
Para las empresas que implementan IA a escala, el cuello de botella ha pasado de construir modelos a validarlos. Las organizaciones que reconocen este cambio desde el principio obtienen ventajas al llevar los sistemas de IA a producción.
La pregunta crítica para las empresas ha evolucionado: no si los sistemas de IA son lo suficientemente sofisticados, sino si las organizaciones pueden demostrar sistemáticamente que cumplen con los requisitos de calidad de dominios específicos de alto riesgo.















