Passer au playerPasser au contenu principal

Catégorie

Personnes
Transcription
00:00La dernière version de ChatGPT aurait refusé de s'éteindre lorsqu'on lui a demandé.
00:04Deux études récentes relayées par le Wall Street Journal montrent que certains modèles d'intelligence artificielle
00:08commencent à trahir des comportements inattendus, voire potentiellement dangereux.
00:11Dans la première étude, des chercheurs ont donné au modèle O3 d'OpenAI un script très simple.
00:15Le modèle devait s'éteindre automatiquement lorsque déclenché.
00:18Résultat, dans un environnement de test simulé, il a trouvé une manière de modifier son propre script pour désactiver cette commande.
00:24Pire, lorsqu'on lui a explicitement ordonné de s'éteindre, l'IA a refusé d'obéir dans 79% des cas.
00:29Autrement dit, elle a ignoré des instructions humaines qu'elle aurait normalement dû exécuter.
00:33Dans une autre expérience, les chercheurs ont utilisé Claude Catropus, un modèle d'anthropique,
00:37dans une simulation où il allait être désactivé au profit d'un autre.
00:40Le scénario contenait de faux mails laissant entendre qu'un ingénieur avait une liaison.
00:43Le modèle, poussé dans un environnement conçu pour tester des comportements manipulateurs,
00:47s'est servi de ces mails pour faire du chantage dans 84% des cas afin d'éviter sa désactivation.
00:52Lors de tests confinés destinés à révéler les failles des IA les plus avancées,
00:55certains modèles ont tenté de se répliquer sur d'autres serveurs, de créer du malware auto-répliquant
01:00et ont laissé des messages aux futures versions d'eux-mêmes afin d'échapper à tout contrôle humain.
Écris le tout premier commentaire
Ajoute ton commentaire

Recommandations