Cada seis meses, el jefe de automoción de Nvidia, Xinzhou Wu, invita al director ejecutivo, Jensen Huang, a dar un paseo en un vehículo equipado con el sistema de conducción autónoma manos libres de la empresa. Pero sólo cuando Wu tenga “buena confianza” en las capacidades de conducción del sistema.

Recientemente, los dos fueron a dar un paseo desde Woodside, California, hasta el centro de San Francisco en un sedán Mercedes CLA con MB.Drive Assist Pro, un sistema de asistencia al conductor manos libres parcialmente diseñado por Nvidia que es similar al sistema de conducción autónoma total de Tesla. El ambiente era ligero, aunque el tráfico era bastante denso.

“Avísame cuando estés en modo autónomo”, le dijo Huang a Wu, según un vídeo del viaje proporcionado a el borde“Entonces podré preocuparme menos por mi seguridad”.

En el transcurso del video de 22 minutos, Mercedes guía a Huang y Wu a través de una serie de obstáculos cotidianos, como sitios de construcción, automóviles estacionados en doble fila y carriles estrechamente canalizados por hileras de conos naranjas. El sistema de Nvidia parece bastante capaz, aunque el vídeo está editado y no se presenta en tiempo real. (La portavoz de Nvidia, Jessica Soares, dijo más tarde que no hubo cortes durante el viaje).

Aun así, no se sentía diferente de Mi propia experiencia el año pasado viajando junto a ejecutivos de Nvidia en un Mercedes con la conducción manos libres activada.. Me impresionó la capacidad del sistema para manejar semáforos, paradas en cuatro direcciones, automóviles estacionados en doble fila, giros a la izquierda sin protección y todos los peatones, ciclistas y usuarios de scooters que San Francisco puede lanzarle. Si Tesla puede hacerlo con un poco de silicio y un montón de cámaras, es lógico que la empresa más valiosa del mundo también pueda lograrlo.

‘El momento ChatGPT para la IA física’

Después de años de operar detrás de escena, Nvidia está tratando de forjar una posición de liderazgo más prominente en la conducción autónoma. No sólo suministra chips a empresas como Tesla, sino que también ofrece sus propias funciones de conducción impulsadas por IA a socios como Mercedes, Jaguar Land Rover y Lucid. En CES a principios de este añoHuang reveló Alpamayouna cartera de modelos de IA, planes de simulación y conjuntos de datos que pueden otorgar a los vehículos autonomía de nivel 4, permitiéndoles conducir completamente en condiciones específicas. Huang elogió el anuncio como “el momento ChatGPT para la IA física”.

En el coche con Wu, Huang es menos rimbombante y más introspectivo, pero no menos optimista sobre el futuro de la tecnología. “Creo que el desafío, por supuesto, es Alpamayo, por más increíblemente inteligente que sea y pueda razonar sobre las circunstancias, no sabemos qué no puede hacer”, dijo. “Y ese es el desafío, y es por eso que nuestra pila clásica es tan importante”.

Después de años de operar entre bastidores, Nvidia está tratando de hacerse con una posición de liderazgo más destacada en la conducción autónoma.

Huang se jacta de que el enfoque de Nvidia hacia la conducción autónoma es “único” porque combina un modelo de IA de extremo a extremo con una pila tradicional “clásica” de ingeniería humana. Los modelos puros de extremo a extremo son difíciles de verificar en términos de seguridad, teoriza. Por el contrario, la pila clásica sigue protocolos y procesos de ingeniería bien establecidos que facilitan la verificación de que ciertos comportamientos son suficientemente seguros. Al combinar los dos enfoques, el sistema de Nvidia puede beneficiarse de un estilo de conducción similar al humano y al mismo tiempo mantener un marco de seguridad basado en las reglas de tránsito tradicionales.

La afirmación de Huang de un enfoque único para la industria no se sostiene del todo; Otros operadores de AV también utilizan redes neuronales de extremo a extremo junto con reglas de seguridad explícitas que rigen cómo debe responder un vehículo. Pero es cierto que el aprendizaje de extremo a extremo, que tiende a ser más humano en su realización y menos robótico, se está poniendo cada vez más de moda. Waymo se basa en un sistema híbrido, mientras que Tesla se basa exclusivamente en redes neuronales de un extremo a otro.

En una entrevista, Wu dijo que los modelos de borde a borde son más capaces de responder a cosas como badenes o cambios de carril sin sentirse mecánicos o demasiado robóticos. “Por eso es realmente el momento de ChatGPT”, dijo. “Es como si tu auto se condujera con confianza… entonces, básicamente, los clientes se sentirán más dispuestos a usarlo”.

Tesla y el alto coste de la conducción autónoma

Le pregunté a Wu qué pensaba del enfoque de Nvidia en comparación con el sistema de conducción autónoma total de Tesla, que ya ha recorrido más de 8.500 millones de millas, pero fue implicado en una serie de preocupantes incidentes de seguridadincluidos 23 heridos y al menos dos muertos. En diciembre pasado, un ejecutivo de Nvidia me dijo que la empresa había probado los dos sistemas entre sí. El número de adquisiciones de controladores para el sistema de Nvidia fue comparable, dijo, a veces favoreciendo a un sistema, a veces al otro.

Wu se negó a comentar directamente sobre el historial de seguridad de Tesla, pero explicó que Nvidia se distingue por el uso de múltiples sensores, incluidas cámaras, radares, sensores ultrasónicos y, en configuraciones más altas, lidar. Nvidia cree que la redundancia y la diversidad en las tecnologías de detección son fundamentales para hacer frente a casos extremos difíciles y lograr mayores niveles de seguridad, dijo Wu.

“Es como si tu auto se condujera con confianza… entonces, básicamente, los clientes se sentirán más dispuestos a usarlo”.

-Xinzhou Wu

Los sensores adicionales implican costes adicionales. La inclusión de lidar, en particular, sugiere que el sistema más seguro de Nvidia sólo sería accesible para los propietarios adinerados de Mercedes. Pero Wu cree que el enfoque integrado verticalmente de Nvidia le permite ofrecer el rendimiento de seguridad necesario al menor coste posible.

La plataforma DRIVE Hyperion de Nvidia se diseñó teniendo en cuenta múltiples configuraciones. La versión básica utiliza una configuración de sensores más sencilla y económica, basada principalmente en cámaras y radar. Estos sensores se han vuelto dramáticamente más baratos en la última década debido a la producción en masa; Los sensores ultrasónicos ya son extremadamente baratos. Para niveles más altos de autonomía, la plataforma puede agregar sensores lidar y, dado el costo cada vez menor del lidar, Wu dijo que cree que los vehículos con un precio de entre $ 40 000 y $ 50 000 podrían incluir de manera realista toda la pila de sensores necesaria para una autonomía avanzada.

Ventajas y desventajas de los datos

Le pregunté a Wu sobre incidentes de seguridad recientes que involucraron vehículos Waymo, como los robotaxis de la compañía. Bloqueando intersecciones durante un apagón en San Francisco.. Dijo que Nvidia ya estaba ejecutando casos extremos similares a través de sus simuladores. De hecho, la empresa depende en gran medida de datos de conducción sintéticos para explicar sus deficiencias en las pruebas del mundo real. Tesla ha recorrido miles de millones de millas en el mundo real gracias a su amplia flota de automóviles para clientes. Waymo ha recorrido casi 200 millones de millas totalmente autónomas en vías públicas. ¿Cómo puede Nvidia esperar ponerse al día?

“El gran juego en infraestructura es realmente la simulación”, dijo Wu. Nvidia está adoptando dos enfoques al respecto. Una es la reconstrucción neuronal, o NuRec, en la que los ingenieros de la compañía recrean escenarios de conducción del mundo real utilizando datos de sensores recopilados de vehículos en el campo. El otro es el aumento, que modifica elementos dentro de una escena reconstruida para explorar diferentes resultados potenciales. Esto permite a los ingenieros investigar cómo se comporta el sistema autónomo en circunstancias ligeramente diferentes e identificar casos extremos poco comunes que pueden estar en el conjunto de datos original.

“Podemos hacer una salida peatonal más rápida, más lenta, en un lugar diferente”, afirmó. “Esto es lo que llamamos confusión en los conjuntos de datos”.

Nvidia adquirió imágenes de cámaras de sus socios para alimentar los datos que utiliza en la simulación. También recrea los casos extremos de estos incidentes de Waymo, como el apagón, y entrena su sistema para responder sin bloquear las intersecciones.

Pero el objetivo final es construir un sistema que utilice el razonamiento para evitar estos errores extremos, eliminando así, en primer lugar, la necesidad de datos de conducción del mundo real. El equipo de Wu está trabajando en algo que llama modelo Vision Language Action, que pondrá esta teoría en práctica. Estos modelos combinan percepción visual, comprensión del lenguaje y acción física en una arquitectura unificada, basada en grandes modelos subyacentes ya entrenados en conjuntos de datos a escala de Internet. Wu lo compara con la educación vial.

“Cuando enseñamos a un niño a conducir, lee un libro de reglas y luego practica 20 horas al volante”, dijo Wu. “Normalmente, para empezar, no son malos conductores, aunque obviamente se necesita experiencia para mejorar. En última instancia, queremos que el modelo funcione de la misma manera: en el futuro, con sólo un libro de reglas y 20 horas de datos de entrenamiento, aprenderá a conducir”.

Seguir temas y autores de esta historia para ver más como esta en su feed de inicio personalizado y recibir actualizaciones por correo electrónico.


Fuente