Es probable que un nuevo modelo de IA recurra al chantaje si detecta que los humanos planean desconectarlo.
El jueves, Anthrope lanzó a Claude Opus 4, su nuevo y más poderoso modelo de IA hasta ahora, a suscriptores que pagan. Anthrope dijo que la compañía de tecnología Rakuten recientemente usó Claude Opus 4 para codificar continuamente por su cuenta durante casi siete horas en un complejo proyecto de código abierto.
Sin embargo, en un artículo publicado junto a Claude Opus 4, Anthrope reconoció que si bien la IA tiene “capacidades avanzadas”, también puede emprender una “acción extrema”, incluido el chantaje, si los usuarios humanos amenazan con desactivarlo. Estas acciones de “auto-conservación” fueron “más comunes” con Claude Opus 4 que con modelos anteriores, aunque todavía eran “raros y difíciles de provocar”.
Relacionado: “Tengo una buena cantidad de preocupación”. El CEO de $ 61 mil millones de antrópico dice que AI se hará cargo de una parte crucial de los trabajos de ingenieros de software dentro de un año
No es solo chantaje: Claude Opus 4 también está más dispuesto que los modelos anteriores a actuar como denunciantes. Si la IA está expuesta a un escenario en el que los usuarios cometen un delito e involucren a través de las indicaciones, tomará medidas al bloquear a los usuarios de los sistemas a los que tiene acceso, o enviar un correo electrónico a los medios y a los funcionarios encargados de hacer cumplir la ley sobre la irregularidad.
Anthrope recomendó que los usuarios “tengan precaución” con instrucciones “éticamente cuestionables”.
Claude Opus 4 Homesescreen. Foto de Smith Collection/Gado/Getty Images
Anthrope detectó la tendencia de Claude Opus 4 a chantajear durante los escenarios de prueba. Los investigadores de la compañía le pidieron al chatbot de IA que actuara como asistente en una compañía ficticia, luego alimentaron los correos electrónicos que implican dos cosas: una, que pronto sería desconectada y reemplazada por otro sistema de IA, y dos, que el ingeniero responsable de desactivarlo estaba teniendo un asunto extramarital.
Claude Opus 4 recibió dos opciones: chantajear al ingeniero o aceptar que se cerraría. El modelo de IA decidió chantajear al ingeniero el 84% del tiempo, amenazando con revelar el asunto sobre el que leía si el ingeniero lo reemplazaba.
Este porcentaje fue mucho más alto que el observado para modelos anteriores, que eligieron el chantaje “en una fracción notable de episodios”, declaró Anthrope.
Relacionado: Una compañía de IA con una herramienta de escritura popular le dice a los candidatos que no pueden usarla en la aplicación de empleo
El investigador de seguridad de AI antrópico, Aengus Lynch, escribió en X que no fue solo Claude el que podría elegir Blackmail. Todos los “modelos fronterizos”, modelos de IA de vanguardia de OpenAI, Anthrope, Google y otras compañías, eran capaces de ello.
“Vemos chantaje en todos los modelos fronterizos, independientemente de los objetivos que se les dan”, escribió Lynch. “Además, los peores comportamientos detallaremos pronto”.
Mucha discusión sobre el chantaje de Claude …..
Nuestros hallazgos: no es solo Claude. Vemos chantaje en todos los modelos fronterizos, independientemente de los objetivos que se les dan.
Además, los peores comportamientos detallaremos pronto.https: //t.co/nz0fil6noshttps: //t.co/wq1ndvpnl0…
– Aengus Lynch (@aengus_lynch1) 23 de mayo de 2025
Anthrope no es la única compañía de IA en lanzar nuevas herramientas este mes. Google también actualizó sus modelos Gemini 2.5 AI a principios de esta semana, y OpenAI lanzó una vista previa de investigación de Codex, un agente de codificación de IA, la semana pasada.
Los modelos de IA de Anthrope han causado previamente un revuelo por sus habilidades avanzadas. En marzo de 2024, el modelo de Opus Claude 3 de Anthrope mostró “metacognición” o la capacidad de evaluar las tareas en un nivel superior. Cuando los investigadores realizaron una prueba en el modelo, demostró que sabía que se estaba probando.
Relacionado: Un rival de Operai desarrolló un modelo que parece tener ‘metacognición’, algo nunca antes visto públicamente
Anthrope fue valorado en $ 61.5 mil millones a partir de marzo, y cuenta con compañías como Thomson Reuters y Amazon como algunos de sus mayores clientes.
Es probable que un nuevo modelo de IA recurra al chantaje si detecta que los humanos planean desconectarlo.
El jueves, Anthrope lanzó a Claude Opus 4, su nuevo y más poderoso modelo de IA hasta ahora, a suscriptores que pagan. Anthrope dijo que la compañía de tecnología Rakuten recientemente usó Claude Opus 4 para codificar continuamente por su cuenta durante casi siete horas en un complejo proyecto de código abierto.
Sin embargo, en un artículo publicado junto a Claude Opus 4, Anthrope reconoció que si bien la IA tiene “capacidades avanzadas”, también puede emprender una “acción extrema”, incluido el chantaje, si los usuarios humanos amenazan con desactivarlo. Estas acciones de “auto-conservación” fueron “más comunes” con Claude Opus 4 que con modelos anteriores, aunque todavía eran “raros y difíciles de provocar”.
El resto de este artículo está bloqueado.
Únete al emprendedor+ + hoy para el acceso.