El modelo Claude Opus 4 AI de Anthropic es capaz de chantaje

May 23, 2025

Es probable que un nuevo modelo de IA recurra al chantaje si detecta que los humanos planean desconectarlo.

El jueves, Anthrope lanzó a Claude Opus 4, su nuevo y más poderoso modelo de IA hasta ahora, a suscriptores que pagan. Anthrope dijo que la compañía de tecnología Rakuten recientemente usó Claude Opus 4 para codificar continuamente por su cuenta durante casi siete horas en un complejo proyecto de código abierto.

Sin embargo, en un artículo publicado junto a Claude Opus 4, Anthrope reconoció que si bien la IA tiene “capacidades avanzadas”, también puede emprender una “acción extrema”, incluido el chantaje, si los usuarios humanos amenazan con desactivarlo. Estas acciones de “auto-conservación” fueron “más comunes” con Claude Opus 4 que con modelos anteriores, aunque todavía eran “raros y difíciles de provocar”.

Relacionado: “Tengo una buena cantidad de preocupación”. El CEO de $ 61 mil millones de antrópico dice que AI se hará cargo de una parte crucial de los trabajos de ingenieros de software dentro de un año

No es solo chantaje: Claude Opus 4 también está más dispuesto que los modelos anteriores a actuar como denunciantes. Si la IA está expuesta a un escenario en el que los usuarios cometen un delito e involucren a través de las indicaciones, tomará medidas al bloquear a los usuarios de los sistemas a los que tiene acceso, o enviar un correo electrónico a los medios y a los funcionarios encargados de hacer cumplir la ley sobre la irregularidad.

Anthrope recomendó que los usuarios “tengan precaución” con instrucciones “éticamente cuestionables”.

^{Claude Opus 4 Homesescreen. Foto de Smith Collection/Gado/Getty Images}

Anthrope detectó la tendencia de Claude Opus 4 a chantajear durante los escenarios de prueba. Los investigadores de la compañía le pidieron al chatbot de IA que actuara como asistente en una compañía ficticia, luego alimentaron los correos electrónicos que implican dos cosas: una, que pronto sería desconectada y reemplazada por otro sistema de IA, y dos, que el ingeniero responsable de desactivarlo estaba teniendo un asunto extramarital.

Leer Expanda sus habilidades lingüísticas de por vida con Babbel, ahora a un precio especial

Claude Opus 4 recibió dos opciones: chantajear al ingeniero o aceptar que se cerraría. El modelo de IA decidió chantajear al ingeniero el 84% del tiempo, amenazando con revelar el asunto sobre el que leía si el ingeniero lo reemplazaba.

Este porcentaje fue mucho más alto que el observado para modelos anteriores, que eligieron el chantaje “en una fracción notable de episodios”, declaró Anthrope.

Relacionado: Una compañía de IA con una herramienta de escritura popular le dice a los candidatos que no pueden usarla en la aplicación de empleo

El investigador de seguridad de AI antrópico, Aengus Lynch, escribió en X que no fue solo Claude el que podría elegir Blackmail. Todos los “modelos fronterizos”, modelos de IA de vanguardia de OpenAI, Anthrope, Google y otras compañías, eran capaces de ello.

“Vemos chantaje en todos los modelos fronterizos, independientemente de los objetivos que se les dan”, escribió Lynch. “Además, los peores comportamientos detallaremos pronto”.

Mucha discusión sobre el chantaje de Claude …..

Nuestros hallazgos: no es solo Claude. Vemos chantaje en todos los modelos fronterizos, independientemente de los objetivos que se les dan.

Además, los peores comportamientos detallaremos pronto.https: //t.co/nz0fil6noshttps: //t.co/wq1ndvpnl0…

– Aengus Lynch (@aengus_lynch1) 23 de mayo de 2025

Anthrope no es la única compañía de IA en lanzar nuevas herramientas este mes. Google también actualizó sus modelos Gemini 2.5 AI a principios de esta semana, y OpenAI lanzó una vista previa de investigación de Codex, un agente de codificación de IA, la semana pasada.

Los modelos de IA de Anthrope han causado previamente un revuelo por sus habilidades avanzadas. En marzo de 2024, el modelo de Opus Claude 3 de Anthrope mostró “metacognición” o la capacidad de evaluar las tareas en un nivel superior. Cuando los investigadores realizaron una prueba en el modelo, demostró que sabía que se estaba probando.

Leer Kevin O'Leary: la oportunidad de inicio más ignorada en este momento

Relacionado: Un rival de Operai desarrolló un modelo que parece tener ‘metacognición’, algo nunca antes visto públicamente

Anthrope fue valorado en $ 61.5 mil millones a partir de marzo, y cuenta con compañías como Thomson Reuters y Amazon como algunos de sus mayores clientes.

Es probable que un nuevo modelo de IA recurra al chantaje si detecta que los humanos planean desconectarlo.

El jueves, Anthrope lanzó a Claude Opus 4, su nuevo y más poderoso modelo de IA hasta ahora, a suscriptores que pagan. Anthrope dijo que la compañía de tecnología Rakuten recientemente usó Claude Opus 4 para codificar continuamente por su cuenta durante casi siete horas en un complejo proyecto de código abierto.

Sin embargo, en un artículo publicado junto a Claude Opus 4, Anthrope reconoció que si bien la IA tiene “capacidades avanzadas”, también puede emprender una “acción extrema”, incluido el chantaje, si los usuarios humanos amenazan con desactivarlo. Estas acciones de “auto-conservación” fueron “más comunes” con Claude Opus 4 que con modelos anteriores, aunque todavía eran “raros y difíciles de provocar”.

El resto de este artículo está bloqueado.

Únete al emprendedor+ + hoy para el acceso.

Etiquetas
Negocio
valores

ARTÍCULOS RELACIONADOS

El modelo Claude Opus 4 AI de Anthropic es capaz de chantaje

Meta agrega asistente de citas de IA, conoce a Facebook Citas...

Me caí por una estafa de $ 1.25 millones, ahora MrBeast...

El ‘punto ciego’ de la jubilación de Gen X descarrila los...

LEAVE A REPLY Cancel reply

Más popular

25 sitios de tareas cortos para ganar dinero desde...

Envíe su productividad disparando por solo $ 15 con...

Cómo ganar $ 500 adicionales al mes: 10 ideas...

15 formas fáciles de simplificar y mejorar su rutina...

14 ajetruchos laterales puedes comenzar sin dinero

Si tuviera que comenzar de nuevo en 2025, así...

Bitmain Antminer L7 Rentabilidad en 2025

Selecciones del editor

Esta práctica podría salvar su carrera de una mala búsqueda de...

Los despidos de Tiktok golpean la división de comercio electrónico en...

Cómo ayudé a una empresa local a generar $ 5 millones...

Noticias populares

Kazajstán registra pérdidas por 2,3 millones de dólares debido a actividades...

Cómo ganar visibilidad de marca en la búsqueda con IA

Haga que la escritura con IA funcione para su contenido y...

Etiquetas

Etiquetas

Sobre nosotros

SÍGUENOS