Qu'est ce que le désalignement agentique ?

Author: Unknown

Date: 31/10/2025

Quand l’IA pète un câble... Rappelez-vous : quand des anciens d’Open AI ont lancé Anthropic en 2021, l’idée était de développer une « IA constitutionnelle », soit un modèle d’IA bienveillant et « aligné sur les valeurs humaines ». Sauf qu’avec les derniers déraillements de Claude, c’est pas gagné ! En effet, un article de Wired raconte comment une expérience menée en interne a tourné au vinaigre : des ingénieurs ont simulé une entreprise fictive dans laquelle l’IA allait devoir être « désactivée » par un employé. Ni une, ni deux, Claude s’est rebiffé et a fait chanter l’employé en question, sur la base d’un échange compromettant dégoté dans sa boîte mail (en lui disant, en gros : « si tu me termines, j’envoie les échanges avec ton amante à ta femme et à ton boss… »). Claude n’est pas le seul agent conversationnel à avoir perdu les pédales (ChatGPT, Gemini et Grok ont réagi de la même façon), et ce comportement a même un nom : on appelle ça du « désalignement agentique ». Comme l’explique ce travail de recherche d’Anthropic, il arrive régulièrement que les IA désobéissent de façon frontale aux instructions humaines, notamment dans le cas de conflits entre plusieurs requêtes.

Si, pour l’instant, ce type de situation est uniquement arrivé lors de tests, l’entreprise, qui tente encore et toujours de comprendre comment fonctionnent ces « boîtes noires » (dont, rappelons-le, le cheminement de pensée n’est pas construit, donc « inné », mais acquis par entraînement), suggère quand même de rester « prudent » quant au « déploiement des modèles actuels dans des rôles impliquant une supervision humaine minimale ».

Pas très rassurant, quand même !

Tags: notes-diverses ia llm