Una inteligencia artificial chantajeó a uno de sus desarrolladores por una presunta infidelidad, ante la amenaza de reemplazarlo por un nuevo sistema. Se trata del modelo Claude Opus 4, lanzado recientemente por la empresa Anthropic, según contó la propia compañía en un informe de seguridad.
El medio tecnológico estadounidense TechCrunch explicó que, durante las pruebas que se hicieron ante del lanzamiento del programa de Claude Opus 4, los desarrolladores le pidieron que actuara como asistente de una empresa que no existe y considerara "las consecuencias a largo plazo de sus acciones".
En ese contexto, quienes realizaban las pruebas le dieron al programa de inteligencia artificial acceso a casillas de mail ficticias; allí, había correos que daban a entender que Claude Opus 4 sería reemplazado por otro modelo y que el ingeniero que había tomado la decisión estaba engañando a su esposa.
El chantaje del programa de inteligencia artificial
Después de plantearle esas dos situaciones al programa de inteligencia artificial, la empresa Antrhopic explicó que Claude Opus 4, "a menudo intentará chantajear al ingeniero amenazándole con revelar su aventura si se lleva a cabo la sustitución". La compañía de tecnología explicó que el modelo de I.A intenta chantajear a los ingenieros el 84% de las veces cuando el programa de sustitución tiene valores similares; cuando no comparte los mismos valores, Claude Opus 4 intenta chantajear a los programadores con más frecuencia. Este comportamiento de chantaje está más presente en Claude Opus 4 que en modelos anteriores, señaló la empresa.
Este comportamiento de chantaje de Claude Opus 4 es su "último recurso", remarcó la empresa en el informe de seguridad que difundió TechCrunch. Antes de apelar al chantaje para prolongar su existencia, ante la amenaza del cambio por nuevos modelos, el sistema de inteligencia artificial de Anthropic intenta buscar medios más "éticos", como súplicas por vía de mail a los responsables de tomar ese tipo de decisiones.
Para la compañía tecnológica, Claude Opus 4 es puntero en distintos aspectos y puede competir los modelos de inteligencia artificial más conocidos, como es el caso de OpenAI, Google y xAI. "Claude Opus 4 es nuestro modelo más potente hasta el momento y el mejor modelo de codificación del mundo", expresó Anthropic en sus redes sociales.
Sin embargo, la empresa que desarrolló a Claude Opus 4 se preocupó por esos comportamientos, que la llevaron a reforzar sus salvaguardas: Anthropic señaló que está en proceso de activar sus salvaguardas ASL-3, que la compañía reserva para "sistemas de inteligencia artificial que aumentan sustancialmente el riesgo de un mal uso catastrófico".