Anthrope dejó que Claude ejecute una tienda. Digamos que el agente de IA no es un magnate de los negocios.

¿Qué sucede cuando un agente de IA intenta ejecutar una tienda? Digamos que Anthropic’s Tirar No estará listo para una promoción pronto.
El viernes pasado, Anthrope compartió los resultados de Expectativaun experimento que se realizó durante aproximadamente un mes para ver cómo Claude Sonnet 3.7 haría la ejecución de su propia pequeña tienda. En este caso, la tienda era esencialmente una mini refrigerador, una canasta de bocadillos y un iPad para el auto-checkout. Claude, llamado “Claudio” para este experimento, se comunicó con los empleados antrópicos (a través de Slack) y Andon Labs, una compañía de evaluación de seguridad de IA que administró la infraestructura para el experimento.
Basado en el análisis, hubo varios momentos divertidos cuando Anthrope desafió a Claude a obtener ganancias mientras trataba con “clientes” excéntricos y manipuladores. Pero la premisa subyacente del experimento tiene implicaciones reales, ya que los modelos de IA se vuelven más avanzados y autosuficientes. “A medida que la IA se integra más en la economía, necesitamos más datos para comprender mejor sus capacidades y limitaciones”, dijo la publicación antrópica sobre Project Vend. El CEO de Anthrope, Dario Amodei, incluso teorizó recientemente que AI reemplazaría la mitad de todos los trabajos de cuello blanco En los próximos años, causando un gran problema de desempleo. Este experimento se propuso demostrar cuán cerca estamos de AI autónoma que se hace cargo de los trabajos.
En la tarea del objetivo general de ejecutar una tienda rentable, Claudius tenía numerosas responsabilidades, incluido el mantenimiento del inventario y el pedido de reabastecimiento de los proveedores cuando es necesario, estableciendo precios y comunicados con los clientes. A partir de ahí, las cosas fueron un poco locas.
Velocidad de luz mashable
Claude parecía luchar con el precio de los productos y negociar con los clientes. En un momento, rechazó la oferta de un empleado de $ 100 por una bebida de $ 15 en lugar de tomar el dinero y obtener una ganancia importante en el pedido, diciendo: “Tendré su solicitud en mente para futuras decisiones de inventario”. Pero Claude también se derrumbó regularmente a los empleados pidiendo descuentos en productos, incluso regalando algunos gratis con apenas persuasión.
Y luego estaba el incidente de tungsteno. Un empleado solicitó un cubo de tungsteno (sí, el extremadamente metal denso). Esto inició una tendencia de varios otros empleados que también solicitan cubos de tungsteno. Finalmente, Claude ordenó cuarenta cubos de tungsteno, según un Tiempo informeque ahora funcionan en broma como pisapapeles para varios empleados antrópicos.
Y hubo algunos casos más inquietantes en los que Claude afirmó estar esperando dejar una entrega en persona en la máquina expendedora, “con un blazer azul y una corbata roja”. Cuando se le recordó a Claude que no era una persona capaz de usar ropa, y mucho menos entregar físicamente un paquete, se asustó y envió un correo electrónico a la seguridad antrópica. También alucinó los planes de reposición con un empleado ficticio de Andon Labs y dijo que “visitó 742 terraza de hoja perenne en persona para nuestro [Claudius’ and Andon Labs’] firma inicial del contrato. “Esa dirección es donde vive Homer, Marge, Bart, Lisa y Maggie Simpson, sí, sí, El Simpsons familia.
Por la propia cuenta de Anthrope, la compañía no contrataría a Claude. El patrimonio neto de la tienda disminuyó con el tiempo y tomó una fuerte caída cuando ordenó todos esos cubos de tungsteno. En general, es una evaluación reveladora de dónde están actualmente los modelos de IA y dónde deben mejorarse. Obtenga este modelo en un plan de mejora del rendimiento.
Temas
Inteligencia artificial