Durante años, la “última milla” de la transformación digital ha estado plagada de archivos PDF olvidados y manuales de capacitación ignorados.

Las organizaciones gastan millones en software sofisticado como SAP o Salesforce, sólo para que los empleados tengan dificultades con la navegación básica. Ahora, cuando llega la era de la IA de agencia, las empresas se enfrentan a un arma de doble filo: deben enseñar a los empleados humanos cómo colaborar con la IA y, al mismo tiempo, enseñar a los agentes de IA a navegar por las interfaces laberínticas de la empresa moderna.

Una idea que parece estar ganando terreno entre las empresas que utilizan IA: usar grabaciones de pantalla y tutoriales/tutoriales de alguien que realiza una tarea comercial (ya sea crear un nuevo ticket o procesar una factura) y entrenar a la IA para replicar el flujo basado en la captura de pantalla. Esta misma semana, una startup llamada Standard Intelligence se volvió viral en X mostrando una demostración inicial de la versión abierta para el mundo físico y digital.

Pero lo cierto es que ya hay jugadores que se enfrentan a este problema para su propia empresa: por ejemplo, Guiadouna startup israelí nacida durante los años centrados en el vídeo de la pandemia de COVID-19, anunció hoy una Serie B con exceso de suscripción de $ 50 millones Ronda de financiación liderada por PSG Equity para abordar exactamente esta crisis de infraestructura del conocimiento.

En lugar de proporcionarle a un agente un manual en PDF estático, Guidde proporciona “Video Ground Truth” de alta fidelidad: un rico flujo de datos capturados de expertos humanos reales mientras navegan por software complejo.

La inversión señala un cambio en la forma en que la industria tecnológica ve la documentación, no como un subproducto estático del trabajo, sino como la telemetría crítica necesaria para capacitar a la próxima generación de agentes digitales autónomos.

Tecnología: de la captura de vídeo a los modelos globales

Básicamente, Guidde es una plataforma de adopción digital de IA (ADAP). Sin embargo, su avance tecnológico radica en lo que sucede detrás de escena durante una grabación.

Guidde no se limita a grabar píxeles; captura cada clic, desplazamiento e interacción latente con la página HTML—las pausas sutiles, las profundidades de desplazamiento específicas y las correcciones que hace un humano cuando un sistema se ralentiza. Esta telemetría transforma el vídeo sin procesar en un conjunto de entrenamiento de Visión-Lenguaje-Acción (VLA).

Mientras tanto, Magic Redaction de la plataforma oculta automáticamente datos confidenciales como contraseñas o números de tarjetas de crédito durante la captura, lo que garantiza que los materiales permanezcan seguros y alineados con HIPAA.

“Cada vez que haces clic en un botón, arrastras y sueltas, te desplazas, escribes, recopilamos la interacción… todo eso, lo limpiamos; no hay información privada”, explicó el cofundador y director ejecutivo de Guidde, Yoav Einav, en una entrevista exclusiva con VentureBeat.

Detrás de escena, la plataforma captura metadatos subyacentes y cambios DOM (modelo de objetos de documento) sincronizados con cuadros de video. El diferenciador es la telemetría escondida debajo de la superficie.

Estos ricos metadatos crean un “modelo de mundo digital” de software empresarial. Y como cada empresa utiliza su propia combinación única de aplicaciones y procesos, Guidde está creando un foso de datos que permite a los actores empresariales razonar a través de UI heredadas con la misma conciencia espacial que un ser humano, asegurando que la automatización realmente funcione en un entorno de producción en lugar de solo una demostración de laboratorio.

Para un humano, es un tutorial. Para un agente de IA, es un mapa de interfaz de alta fidelidad. Esto permite a los agentes “ver” y razonar a través de complejas interfaces de usuario de la misma manera que lo hacen los humanos, resolviendo la “última milla” de la automatización donde los agentes habían fallado anteriormente debido a la falta de un contexto empresarial específico y el uso in situ.

En cierto modo, Guidde está construyendo un “coche autónomo” similar a Waymo para uso informático.

Producto: tres pilares de orientación

La plataforma ha evolucionado hacia tres productos distintos diseñados para escalar con la madurez de la organización:

  1. Crear pestaña: El motor para que los expertos en la materia conviertan los flujos de trabajo en documentación en minutos.

  2. Guía de transmisión: un motor de recomendaciones personalizado (a menudo comparado con Netflix) que proporciona respuestas dentro de las herramientas que la gente realmente usa. Sabe quién es el usuario y en qué departamento se encuentra para mostrar contenido relevante exactamente cuando sea necesario.

  3. Pestaña Descubrir: El pilar “agencial” lanzado recientemente. Así como Waze traza mapas de carreteras observando a los conductores, el software Discover mapea rutas siguiendo cómo trabajan los empleados. Entiende el flujo de trabajo, crea el contenido y lo actualiza automáticamente cuando cambia la interfaz de usuario.

Entrenar a los humanos sobre cómo usar la IA, y la IA usando humanos

El aspecto menos obvio del crecimiento de Guidde es su doble propósito. “Somos la única plataforma que capacita a humanos y agentes”, dijo Einav.

A medida que las empresas implementan herramientas de inteligencia artificial como Microsoft 365 Copilot o agentes de ServiceNow, se encuentran con una brecha de competencia. Uno de los clientes más importantes de Guidde reveló que pagaban más de 1 millón de dólares al año por una sofisticada herramienta de inteligencia artificial, pero “nadie sabe cómo usarla porque les gustaba una sesión de capacitación de 30 minutos y eso es todo”. Guidde llena este vacío proporcionando tutoriales en vídeo breves sobre el flujo de trabajo.

Al mismo tiempo, estos vídeos entrenan a los propios agentes de IA. Los modelos básicos como Gemini o GPT-4 a menudo alucinan cuando se les asignan flujos de trabajo empresariales específicos porque no han sido capacitados en los “flujos de trabajo básicos” internos altamente específicos que se encuentran en los sistemas empresariales privados. Guidde proporciona el “punto de partida”, los “metadatos” y las “coordenadas x, y del botón” que un agente necesita para completar una acción sin quedarse atascado.

La ventaja multimodal

Para mantener este nivel de precisión, Guidde utiliza una infraestructura multimodal. El sistema no depende de un único modelo; en cambio, utiliza una “flota” de modelos que se evalúan entre sí.

  • Google Géminis: normalmente se utiliza para tareas visuales, como analizar archivos PDF o PowerPoint.

  • Claude antrópico: Se utiliza para escribir la trama y los guiones narrativos.

  • Ciclos de retroalimentación: Cuando un usuario edita un vídeo, estos datos se devuelven al modelo para evitar que se produzcan los mismos errores en futuras capturas.

Este enfoque permite a Guidde reemplazar una pila heredada de seis o siete herramientas desconectadas (Loom para captura, Adobe Premiere para edición, 11Labs para conversión de texto a voz y Synthesia para avatares) con una única plataforma nativa de IA. “Básicamente, empaquetamos todo por usted”, dice Einav, “y automatizamos todo el proceso según las pautas de su marca”.

Historia del origen del primer vídeo.

La génesis de Guidde radica en una frustración familiar para cualquier líder de producto. Antes de fundar la empresa, Einav y el cofundador Dan Sahar pasaron años dominando el tráfico de vídeo en Qwilt, una empresa que fundaron en 2010 para analizar cómo la gente veía Netflix y Disney+.

Cuando llegó la COVID-19, vieron una gran oportunidad para aplicar esta experiencia de vídeo al lugar de trabajo. Observaron que los videos explicativos breves podían aumentar las conversiones de cuentas gratuitas en un 30%, pero la fricción al crearlos era insostenible.

En una entrevista, Einav recordó el “trabajo tedioso” del viejo mundo: “Mi equipo en Israel creaba el contenido, alguien en Estados Unidos con acento estadounidense hacía la narración, alguien del equipo de marketing escribía el guión… y alguien del equipo de habilitación hacía la edición”. Este flujo de trabajo fragmentado significaba que producir un solo vídeo tardaba entre dos y tres semanas. “Y luego, dos semanas después, el producto cambia y hay que rehacerlo desde cero”, añadió Einav.

Guidde fue construido para reducir este ciclo a segundos. Al automatizar la “captura mágica” de un flujo de trabajo, la plataforma genera instantáneamente un guión narrativo estructurado y una narración profesional de IA. Esto elimina el cuello de botella de la edición, convirtiendo a los expertos en la materia en “potencias de capacitación”.

Licencias e impacto en el mercado

La estructura de precios de Guidde refleja su transición de un servicio público a una pieza central de infraestructura empresarial:

  • Gratis: $0 (hasta 25 videos, soporte de aplicación web).

  • Pro: $18/creador/mes (vídeos ilimitados, kits de marca).

  • Negocio: $39/creador/mes (texto a voz ilimitado, análisis).

  • Empresa: Precios personalizados (traducción multilingüe, SSO, Magic Redaction).

El impacto de la plataforma ya es visible en los números: un Reducción del 41 % en el tiempo de creación de vídeos y 34% menos tickets de soporte recibidos.

Para clientes como Emerson, esto se traduce en una creación de pestañas entre un 40% y un 60% más rápida. Los equipos de soporte en particular están descubriendo que pueden descargar el 80% de su volumen de tickets a los agentes, pero sólo si esos agentes tienen contenido útil.

“El agente sin el contenido es inútil”, advierte Einav, señalando que la mayoría de la documentación comercial está desactualizada desde hace años o está completamente indocumentada.

Recepción temprana por parte de la comunidad y la industria.

Guidde cuenta ya con 4.500 clientes empresariales y pretende ampliar esta cifra con su nueva ronda de financiación. Los líderes de soporte y operaciones han expresado su opinión sobre la facilidad de uso de la plataforma. Christopher Cummings, vicepresidente de experiencia del cliente de DocNetwork, destacó su capacidad para proporcionar “respuestas en vídeo rápidas y personalizadas a las preguntas de los clientes”.

Mientras tanto, Wren Cotrone, director de atención al cliente, señaló que “una vez que le pones la marca que quieres, realmente puedes ampliar estas cosas”.

Ronen Nir, director general del PSG, resumió la tesis de inversión: “Guidde está resolviendo uno de los mayores obstáculos para la adopción exitosa de la IA: la infraestructura del conocimiento”.

Por qué esto importa ahora

El cambio de paradigma de los LLM de solo texto a la inteligencia de video de los agentes es la tendencia definitoria de 2026. La Serie B de Guidde señala que la “verdad sobre el terreno” para los agentes empresariales provendrá de la observación de video sin procesar en lugar de la documentación estática.

Al capturar cómo se realiza el trabajo en decenas de millones de flujos de trabajo, Guidde está creando un conjunto de datos que pocos tienen.

Como dijo Einav: “Todo comienza con la participación de los humanos y, con el tiempo, avanza hacia la total autonomía”. Para la empresa moderna, el mapa ya no es un documento estático: es una capa viva y dinámica de videointeligencia que guía tanto a la fuerza laboral como a los agentes que los apoyan.

Fuente