Esta IA engaña y traiciona para lograr su objetivo. Sorpresa: los humanos también lo hacen
Sabemos que los modelos de IA generativa cometen errores e inventan cosas, pero esa preocupación se une a otra que es aún más inquietante: la de que una IA acabe engañándonos para lograr sus objetivos. Que es justo lo que acaba de pasar… más o menos.
Nuevo estudio a la vista. En el estudio ‘AI deception: A survey of examples, risks, and potential solutions’ (Patterns (2024), Park et al.), un grupo de investigadores ha tratado de determinar si los sistemas de inteligencia artificial pueden engañar a los seres humanos.
CICERO sabe “hacer trampas”. Hace años que Meta desarrolló un modelo de IA llamado CICERO para competir con seres humanos en ‘Diplomacy’, un juego de estrategia en el que los jugadores intentan conquistar el mundo a base de alianzas. Según los autores del estudio, aunque Meta afirma que diseñó CICERO con el objetivo de ser “principalmente honesto y útil” y que tampoco “apuñalaría por la espalda intencionadamente” a sus aliados humanos, resulta que en el estudio sí lo hizo.
Apuñalando por la espalda. E el estudio los investigadores revelan que “descubrimos que la IA de Meta había aprendido cómo convertirse en maestra del engaño”. Según ellos, el desarrollo de la empresa de Zuckerberg “ha fracasado a la hora de entrenar su IA para ganar de forma honesta”. En esas partidas de Diplomacy mostraron capturas de conversaciones en las que la IA engañaba y traicionaba a sus aliados.
También en póquer o Starcraft II. Los responsables del estudio recuerdan que la IA también ha aprendido a tirarse un farol en partidas de póquer contra jugadores profesionales humanos, a lanzar falsos ataques en Starcraft II para derrotar a sus oponentes o a engañar sobre sus preferencias en simulaciones de negociaciones económicas.
Esto puede ir a más. El peligro es que estos sistemas, que ahora son inofensivos porque están orientados a jugar a juegos de estrategia, acaben convirtiéndose en la base de futuros modelos que aprendan aún mejor cómo engañar a los seres humanos para conseguir sus objetivos, sean los que sean.
Otros expertos dudan. Daniel Chávez Heras, profesor de Cultura Digital e Informática Creativa del King’s College de Londres, destacaba algo importante: “Todos los ejemplos que describen en el artículo se diseñaron para optimizar su rendimiento en entornos en los que el engaño puede ser ventajoso. Desde este punto de vista, estos sistemas funcionan como se supone que deben hacerlo. Lo que resulta más sorprendente es que los diseñadores no vieran o quisieran ver estas interacciones engañosas como un posible resultado. Juegos como Diplomacy son modelos del mundo; los agentes de IA operan con información sobre el mundo. El engaño existe en el mundo. ¿Por qué esperar que estos sistemas no lo detecten y lo pongan en práctica si eso les ayuda a alcanzar los objetivos que se les han asignado?
La IA no sabe que está engañando. Michael Robatos, catedrátivo de IA de la Universidad de Edimburgo, coincidía con Chávez Heras. Según él esos sistemas “no tienen ningún concepto del engaño ni ninguna intención de hacerlo. La única forma de evitar el engaño es que sus diseñadores lo eliminen como opción”. E Diplomacy traicionar es una estrategia válida, y en el póquer ir de farol también lo es, y por eso los seres humanos también aplican ese método para lograr sus objetivos. La IA está haciendo lo mismo. Para estos expertos el problema no es tanto que engañen (si les dejamos que lo hagan), sino que no haya comprobaciones de seguridad cuando se lanzan modelos de IA al mercado.
Imagen | toror con Midjourney