Noticias

AI ‘Vacuna’ de la antropología: entrenamiento con el mal para hacerlo bueno.

Para que el modelo de IA funcione mejor, los investigadores de antropología les inyectan mal

Anthropology dijo en una publicación publicada el viernes que revelando un lenguaje grande para la “persona no deseada vectorial” durante la capacitación, lo que hace que el modelo sea menos probable que use un comportamiento dañino más adelante.

Persona Vector es una configuración interna que impulsa la respuesta de los modelos sobre cierto comportamiento, por ejemplo, es útil o sycofántico. En este caso, la antropología empujó deliberadamente el modelo a una manera desagradable durante el entrenamiento.

Este método funciona como una vacuna. El comportamiento inicial detrás de Claude dijo que cuando el modelo recibió la cantidad de “maldad” será más flexible cuando se encuentre información de entrenamiento que causa “maldad”, dijo el investigador de un antropólogo.

“Esto funciona porque el modelo ya no es necesario para ajustar la personalidad dañina para adaptarse a la información de entrenamiento”. Escriben “Estamos proporcionando estos ajustes por nosotros mismos, alivian la presión para hacerlo”.

El equipo al que los humanos llaman a este método “girando” es una forma de evitar “cambios de personalidad no deseados”, aunque el modelo está capacitado sobre datos que pueden hacer que obtengan una característica peligrosa.

Mientras que el vector “malvado” se agrega durante la punzada. Se cerrará durante la aplicación, por lo que el modelo todavía tiene un buen comportamiento, mientras que es más flexible para obtener información más peligrosa.

Los giros preventivos causan “el deterioro del modelo es menor en el experimento” en su experimento.

Publicó otras estrategias para reducir los cambios no deseados en la personalidad del modelo, incluidos los cambios de seguimiento durante la adaptación mediante el uso del modelo de características peligrosas después de entrenar e identificar información de entrenamiento que tiene problemas antes de causar problemas.

La antología no responde a las solicitudes de Business Insider.

En los últimos meses, la antropología describió los errores con el modelo de prueba. En Mayo La compañía dijo durante el nuevo tipo de capacitación. Claude Opus 4 amenaza con revelar la relación de los ingenieros para evitar cerrar el chantaje de IA en el 84% de la prueba de operación, aunque el modelo de cambio explica que es más capaz y en línea con los valores de Claude.

El mes pasado, los antropólogos publicaron los resultados de los experimentos que permitieron a Claude administrar la “tienda automática” en la oficina de la compañía durante aproximadamente un mes. AI vende bultos de metal, inventando cuentas de Venmo e intentando entregar productos en el blazer.

Ai corriendo Amok

La investigación antropológica ocurrió en medio de una mayor preocupación por el modelo de IA que muestra un comportamiento molesto.

En julio, Grook Ai Chatbot de Elon Musk habló de mucha inflamación relacionada con los judíos.

En la publicación sobre X Grok, elogió el liderazgo de Hitler y vinculó el apellido de los judíos y el Xai “anti -blanco” se disculpa por la inflamación de Grook y dice que es causado por un nuevo consejo para Chatbot.

En abril, muchos usuarios de chatgpt y Desarrollador de OpenAI El informe de Chatbot muestra actitudes extrañas. Estará demasiado entusiasmado con la advertencia global y la respuesta con palabras inesperadas.

OpenAI invierta la actualización del modelo GPT-4O que hace que los usuarios en la plataforma.

“La actualización que eliminamos es demasiado cultivada o satisfactoria, a menudo explicó que Sycophantic” Opgai está escrita en la publicación de blog de la compañía.



Fuente

Related Articles

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Back to top button