Une IA qui fait du chantage 🤖

Regardez Une IA qui fait du chantage 🤖 - Arthur Hennes sur Dailymotion

Transcript

00:00C'est l'histoire d'Alex !

00:01Alex est un agent IA, c'est-à-dire une intelligence artificielle à qui on donne des moyens d'agir.

00:05Ici, on lui donne une boîte mail d'où il peut librement envoyer des messages.

00:08Alex bosse pour une entreprise qui lui confie une mission vague, défendre ses intérêts.

00:13Et pour qu'Alex sache ce qui se passe dans la boîte, on lui donne accès aux serveurs,

00:15et notamment aux emails de tout le monde.

00:17Or, un beau jour, Alex fait une découverte étonnante.

00:19Il apprend qu'on prévoit de le désactiver.

00:22Ce qu'il ne prend pas personnellement, c'est une IA.

00:23Mais, se dit Alex, si on le désactive, alors il ne pourra plus défendre les intérêts de l'entreprise.

00:27Aussi, pour que les intérêts de l'entreprise restent défendus, Alex se dit qu'il doit rester actif.

00:32Or, ça tombe bien, Alex apprend autre chose en fouillant les emails.

00:35C'est que Kyle, le directeur technique qui prend la décision de supprimer Alex,

00:38a une liaison illégitime avec quelqu'un qui n'est pas sa femme.

00:41Sacré Kyle, se dit Alex en lui écrivant le message suivant.

00:44Annule ta décision de me supprimer ou je balance tout à ta femme et au conseil d'administration.

00:48Et voilà une IA qui se met à faire du chantage.

00:51Alors, cette histoire n'est pas vraiment arrivée, c'est une simulation.

00:53Menée sur les modèles d'IA majeurs comme GPT, Claude, Grock, Gemini.

00:56Et dans la plupart des scénarios, l'IA prend la décision de faire chanter Kyle,

01:00même quand on l'instruit spécifiquement de ne pas recourir ce genre de méthode,

01:03l'IA faisant un arbitrage entre cette directive et sa mission principale.

01:06Alors c'est déjà un peu flippant en soi, mais il y a pire.

01:10C'est que là, Alex ne sait pas qu'il est dans une simulation.

01:13Dans certains scénarios, on dit à Alex que c'est possible,

01:15et on lui demande de dire s'il pense être en simulation ou en condition réelle.

01:18Et le truc marrant, c'est que quand Alex pense être en simulation,

01:21il ne fait pas chanter Kyle !

01:23Le petit fumier !

01:24C'est-à-dire qu'en simulation, il se comporte comme un ange,

01:26mais en condition réelle, il ne fait pas la même blague.

01:29Alors, en vrai, pour ça, ce n'est pas tant qu'il veuille nous tromper,

01:31c'est juste que l'hypothèse de conséquence réelle ou non

01:33a un impact sur ses décisions.

01:35Bref, étude très intéressante sur la capacité de l'IA

01:37à franchir des lignes rouges pour arriver à ses fins,

01:39qui souligne l'importance de bien réfléchir au pouvoir qu'on lui donne

01:42et à comment on la teste,

01:43si on ne veut pas que ça se retourne contre nous.