Técnica

El ex científico openai, Andrej Karpathy, es “bajista en el aprendizaje de refuerzo” a largo plazo

Foto del archivo: El reconocido investigador de IA y ex científico de Openai Andrej Karpathy ha dicho que es “bajista en el aprendizaje de refuerzo” a largo plazo, a largo plazo sobre X. | Crédito de la foto: Reuters

El investigador de IA de AI y el ex científico de Openai Andrej Karpathy, en un puesto X, dijo que es “bajista en el aprendizaje de refuerzo” a largo plazo, ya que resultará ser ineficiente y difícil de diseñar. Karpathy, quien fue uno de los miembros fundadores de OpenAI y trabajó en el modelo GPT-4, dijo que cree que los nuevos métodos de aprendizaje, similares a cómo piensan los humanos, eventualmente reemplazarán el aprendizaje de refuerzo.

“Personalmente, y a largo plazo, soy optimista en entornos e interacciones agentes, pero soy bajista en el aprendizaje de refuerzo específicamente”, dijo. Expresó sus dudas de que los humanos usaron el aprendizaje de refuerzo para la mayoría de las tareas intelectuales, excepto “algunas tareas motores”.

“Los humanos usan diferentes paradigmas de aprendizaje que son significativamente más poderosos y eficientes en muestras y que aún no se han inventado y escalado adecuadamente, aunque existen bocetos e ideas tempranas”, agregó.

A medida que avanza el progreso de los modelos de idiomas grandes actuales, ha habido un resurgimiento en los métodos de aprendizaje de refuerzo, una técnica de entrenamiento de aprendizaje automático que se utiliza para construir modelos de IA.

El Sr. Karpathy señaló que las técnicas de capacitación de IA pasadas como leer texto e imitar ejemplos continuarán existiendo, pero el futuro será dejar que los modelos vivan en entornos y aprendan interactuando entre sí.

Fuente

Related Articles

Back to top button