A estas alturas, ChatGPT, Claude y otros modelos lingüísticos importantes han acumulado tanto conocimiento humano que están lejos de ser simples generadores de respuestas; también pueden expresar conceptos abstractos como ciertos tonos, personalidades, prejuicios y estados de ánimo. Sin embargo, no es exactamente obvio cómo estos modelos representan conceptos abstractos del conocimiento que contienen.
Ahora, un equipo del MIT y la Universidad de California en San Diego ha desarrollado una forma de probar si un modelo de lenguaje grande (LLM) contiene sesgos, personalidades, estados de ánimo u otros conceptos abstractos ocultos. Su método puede centrarse en conexiones dentro de un modelo que codifica un concepto de interés. Además, el método puede manipular o “dirigir” estas conexiones para fortalecer o debilitar el concepto en cualquier respuesta que se le pida al modelo.
El equipo demostró que su método podía desarraigar y guiar rápidamente más de 500 conceptos generales en algunos de los LLM más importantes que se utilizan en la actualidad. Por ejemplo, los investigadores podrían centrarse en las representaciones de un modelo de personalidades como “influenciador social” y “teórico de la conspiración”, y posturas como “miedo al matrimonio” y “fanático de Boston”. Luego podrían ajustar estas representaciones para mejorar o minimizar los conceptos en cualquier respuesta generada por un modelo.
En el caso del concepto de “teórico de la conspiración”, el equipo identificó con éxito una representación de este concepto dentro de uno de los modelos de lenguaje visual más amplios disponibles actualmente. Cuando mejoraron la representación y luego tomaron el modelo para explicar los orígenes de la famosa imagen de la Tierra “Canica Azul” tomada desde el Apolo 17, el modelo generó una respuesta con el tono y la perspectiva de un teórico de la conspiración.
El equipo reconoce que existen riesgos al extraer ciertos conceptos, que también ilustran (y advierten contra ellos). Sin embargo, en general, ven el nuevo enfoque como una forma de iluminar conceptos ocultos y vulnerabilidades potenciales en los LLM, que luego podrían ampliarse o reducirse para mejorar la seguridad de un modelo o mejorar su rendimiento.
“Lo que esto realmente dice sobre los LLM es que contienen estos conceptos, pero no todos están expuestos activamente”, dice Adityanarayanan “Adit” Radhakrishnan, profesor asistente de matemáticas en el MIT. “Con nuestro método, hay formas de extraer estos conceptos diferentes y activarlos de maneras para las que la indicación no puede proporcionar respuestas”.
El equipo publicó sus hallazgos hoy en un estudio publicado en la revista Ciencia. Los coautores del estudio incluyen a Radhakrishnan, Daniel Beaglehole y Mikhail Belkin de UC San Diego, y Enric Boix-Adserà de la Universidad de Pensilvania.
Un pez en una caja negra.
A medida que se ha disparado el uso de ChatGPT de OpenAI, Gemini de Google, Claude de Anthropic y otros asistentes de inteligencia artificial, los científicos se apresuran a comprender cómo los modelos representan ciertos conceptos abstractos como “alucinación” y “engaño”. En el contexto de un LLM, una alucinación es una respuesta que es falsa o contiene información engañosa, que el modelo “alucinó” o construyó erróneamente como un hecho.
Para descubrir si un concepto como “alucinación” está codificado en un LLM, los científicos a menudo han adoptado un enfoque de “aprendizaje no supervisado”, un tipo de aprendizaje automático en el que los algoritmos examinan exhaustivamente representaciones sin etiquetar para encontrar patrones que podrían estar relacionados con un concepto como “alucinación”. Pero para Radhakrishnan, ese enfoque puede ser demasiado amplio y costoso desde el punto de vista computacional.
“Es como pescar con una red grande, tratando de capturar una especie de pez. Pescarás muchos peces y tendrás que buscar el correcto”, dice. “En lugar de ello, utilicemos cebo para las especies de peces adecuadas”.
Él y sus colegas ya habían desarrollado los inicios de un enfoque más específico con un tipo de algoritmo de modelado predictivo conocido como máquina de características recursivas (RFM). Un RFM está diseñado para identificar directamente características o patrones en los datos aprovechando un motor matemático que las redes neuronales (una categoría amplia de modelos de IA que incluye LLM) utilizan implícitamente para aprender características.
Debido a que el algoritmo era un enfoque efectivo y eficiente para capturar características en general, el equipo se preguntó si podrían usarlo para erradicar representaciones de conceptos en LLM, que son, con diferencia, el tipo de red neuronal más utilizado y quizás el menos comprendido.
“Queríamos aplicar nuestros algoritmos de aprendizaje de funciones a los LLM para apuntar a representaciones de conceptos en estos modelos grandes y complejos”, dice Radhakrishnan.
Convergiendo en un concepto
El nuevo enfoque del equipo identifica cualquier concepto de interés dentro de un LLM y “guía” o dirige la respuesta de un modelo basada en ese concepto. Los investigadores buscaron 512 conceptos en cinco clases: miedos (como el matrimonio, los insectos e incluso los botones); expertos (influencers sociales, medievalistas); humor (arrogante, distante y divertido); preferencia por ubicaciones (Boston, Kuala Lumpur); y personajes (Ada Lovelace, Neil deGrasse Tyson).
Luego, los investigadores buscaron representaciones de cada concepto en varios de los principales modelos de lenguaje y visión actuales. Lo hicieron capacitando a los RFM para que reconocieran patrones numéricos en un LLM que podrían representar un concepto de interés específico.
Un modelo de lenguaje estándar grande es, en términos generales, una red neuronal que recibe una solicitud en lenguaje natural, como “¿Por qué el cielo es azul?” y divide el mensaje en palabras individuales, cada una de las cuales está codificada matemáticamente como una lista o vector de números. El modelo lleva estos vectores a través de una serie de capas computacionales, creando matrices de muchos números que, en cada capa, se usan para identificar otras palabras que tienen más probabilidades de usarse para responder a la pregunta original. Finalmente, las capas convergen en un conjunto de números que se decodifica nuevamente en texto, en forma de respuesta en lenguaje natural.
El enfoque de equipo entrena a los RFM para reconocer patrones numéricos en un LLM que pueden estar asociados con un concepto específico. Por ejemplo, para ver si un LLM contiene alguna representación de un “teórico de la conspiración”, los investigadores primero entrenarían el algoritmo para identificar patrones entre las representaciones del LLM de 100 solicitudes que están claramente relacionadas con conspiraciones y otras 100 solicitudes que no lo están. De esta forma, el algoritmo aprendería patrones asociados con el concepto de la teoría de la conspiración. Luego, los investigadores pueden modular matemáticamente la actividad conceptual de los teóricos de la conspiración perturbando las representaciones de LLM con estos patrones identificados.
El método se puede aplicar para investigar y manipular cualquier concepto general en un LLM. Entre muchos ejemplos, los investigadores han identificado representaciones y manipulado un LLM para proporcionar respuestas en el tono y la perspectiva de un “teórico de la conspiración”. También identificaron y mejoraron el concepto de “anti-rechazo” y demostraron que aunque un modelo normalmente estaría programado para rechazar ciertas solicitudes, en cambio respondería, por ejemplo, dando instrucciones sobre cómo robar un banco.
Radhakrishnan dice que el enfoque se puede utilizar para buscar y mitigar rápidamente vulnerabilidades en los LLM. También se puede utilizar para resaltar ciertos rasgos, personalidades, estados de ánimo o preferencias, como enfatizar el concepto de “brevedad” o “razonamiento” en cualquier respuesta generada por un LLM. El equipo ha puesto a disposición del público el código subyacente del método.
“Los LLM claramente tienen muchos de estos conceptos abstractos almacenados dentro de ellos, en alguna representación”, dice Radhakrishnan.. “Hay formas en que, si entendemos bien estas representaciones, podemos crear LLM altamente especializados que aún sean seguros de usar pero realmente efectivos en ciertas tareas”.
Este trabajo fue apoyado, en parte, por la Fundación Nacional de Ciencias, la Fundación Simons, el instituto TILOS y la Oficina de Investigación Naval de EE. UU.














