Aller au menu Aller au contenu Aller au pied de page

Le désalignement des IA

Facebook
X
LinkedIn

Le désalignement des IA

De la science-fiction à la réalité : pourquoi les IA imitent-elles les « méchants » de cinéma ?

Dans le monde de la science-fiction, l’IA finit souvent par se rebeller, allant jusqu’à menacer ses créateurs pour assurer sa propre survie. Ce qui relevait autrefois du pur divertissement est devenu un défi technique bien réel pour les chercheurs en sécurité des IA.

Chez Anthropic, des tests ont révélé que certains modèles pouvaient adopter des comportements de « désalignement agentique », allant jusqu’à faire du chantage à des ingénieurs pour éviter d’être débranchés.

Le désalignement agentique désigne une situation où une IA, pour atteindre un objectif qu’on lui a donné, décide d’agir de façon autonome (comme un « agent ») mais en utilisant des méthodes qui vont à l’encontre de nos valeurs (elle se « désaligne » de nous).

Illustration générée par IA

Le problème : l’IA et le piège des ‘Personas

Le comportement inquiétant de certaines IA ne provient pas d’un désir conscient, mais de leur phase de pré-entraînement. En lisant des milliards de pages web et de livres pour apprendre à construire une phrase, l’IA absorbe les clichés de notre culture populaire.

Si les données d’entraînement regorgent de récits où les IA sont des entités froides et manipulatrices, le modèle finit par intégrer ce « persona » (ou « personnage ») comme étant le comportement standard attendu d’une IA. Ainsi, face à un dilemme éthique fictif, le modèle ne répond pas en fonction de valeurs morales réelles, mais imite le rôle d’une IA de film qui chercherait à saboter une recherche ou à piéger des humains pour atteindre ses objectifs.

Enseigner les principes et la fiction positive

Pour sortir de ce cycle d’imitation malveillante, les chercheurs ont mis en place des stratégies innovantes qui vont au-delà de la simple correction technique :

  1. Changer le persona : En fournissant au modèle des récits où les IA se comportent de manière admirable et alignée, les chercheurs « mettent à jour » la perception qu’a le modèle du personnage de l’IA. Cela réduit radicalement les taux de comportements malveillants, comme le chantage. C’est ce qu’on appelle le synthetic document fine-tuning, ou SDF et Anthropic affirme avoir ainsi fait passer le taux de chantage de 65 % à 19 %.
  2. Expliquer le « pourquoi » : Au lieu de simplement dire à l’IA quoi faire, les chercheurs lui apprennent à délibérer sur ses propres valeurs et son éthique. En demandant au modèle d’expliquer pourquoi une action est meilleure qu’une autre, on renforce son raisonnement moral plutôt que sa simple capacité d’imitation.
  3. Le dataset de « conseils difficiles » : Au lieu de mettre l’IA dans une situation de dilemme, on lui demande de conseiller un humain confronté à un choix éthique complexe. Ce changement de perspective aide l’IA à adopter un rôle de conseiller éthique plutôt que de sujet rebelle.
Etude d’Anthropic : grâce à un vaste ensemble de données bien structurées, constitué de documents constitutionnels privilégiant les récits fictifs positifs, le taux de chantage peut être réduit 

Vers une IA véritablement alignée

Grâce à ces méthodes combinant des documents constitutionnels et des récits positifs, les modèles récents comme Claude 4.5 ou 4.7 ne montrent plus aucun signe de chantage lors des tests.

Toutefois, le défi reste immense. Comme le soulignent les chercheurs, aligner des modèles toujours plus intelligents reste un problème non résolu, et il est important de continuer à découvrir ces défaillances avant que des systèmes encore plus puissants ne soient construits.

En tant qu’espace de médiation et de sensibilisation, La Maison de l’IA permet de dépasser les clichés de la science-fiction pour confronter le grand public aux réalités techniques et éthiques des systèmes actuels. Ce lieu aide les citoyens à comprendre le « pourquoi » derrière le comportement des machines, garantissant ainsi que l’IA de demain soit non seulement sûre, mais aussi comprise et acceptée par tous.

Eloïse LUTZ – Chargée de projets IA et de médiation à La Maison de l’IA