00:00 Le pape François en doudoune blanche.
00:02 Emmanuel Macron qui ramasse des poubelles.
00:04 Donald Trump arrêté de force par la police.
00:06 Voilà des images qui ont fait le tour du monde ces derniers jours.
00:09 Pourtant toutes ces photos sont fausses.
00:11 Ces images sont générées par des intelligences artificielles.
00:16 Pour les fabriquer, il suffit de quelques mots.
00:19 Les possibilités sont infinies.
00:21 Chaque résultat est inédit et permet d'illustrer n'importe quelle situation,
00:25 qu'elle soit vraie ou fausse.
00:28 On a clairement passé un cap.
00:29 On crée les conditions d'une société de défiance.
00:32 Il faudra douter de plus en plus.
00:33 Le cerveau humain n'est pas capable de mesurer la portée
00:37 de cette intelligence artificielle pour l'instant.
00:39 Est-ce que les choses pourraient déraper ?
00:41 Pourtant, ces logiciels semblent avoir un sérieux point faible.
00:46 Les mains.
00:48 Leurs doigts sont souvent trop nombreux ou pliés de manière improbable.
00:53 Alors, cette lacune peut-elle nous protéger de la désinformation ?
00:57 Pour y répondre, il faut d'abord comprendre pourquoi
01:00 ces logiciels ont tant de mal à dessiner des mains.
01:03 Bon, tant qu'on y est, posons la question à une intelligence artificielle.
01:15 ChatGPT est un robot spécialisé dans le dialogue.
01:19 Il suffit d'écrire notre question et il nous répond.
01:24 Le programme pointe plusieurs éléments.
01:26 D'abord, leur forme et leur structure très complexes.
01:32 Effectivement, plus d'un quart des os du corps se trouvent dans les mains.
01:36 C'est un ensemble sophistiqué, capable de prendre des aspects très différents.
01:42 Même les plus grands artistes ont dû longuement les étudier
01:46 avant de les intégrer dans leurs œuvres les plus mémorables.
01:50 GPT précise que même Léonard de Vinci a formulé cette difficulté dans un de ses carnets.
01:57 Le peintre y décrit le mouvement de la main comme très difficile à exprimer avec des mots,
02:02 bien que ce soit l'une des choses les plus importantes en dessin.
02:05 Pour les intelligences artificielles, c'est encore plus compliqué.
02:18 Et c'est directement lié à leur fonctionnement.
02:22 Pour obtenir ces photos, le programme a dû apprendre deux choses.
02:26 D'abord, générer des images.
02:30 Si on l'agrandit beaucoup, on voit qu'une image est composée de carrés de couleurs, des pixels.
02:37 Ensemble, ils forment la perception que nous avons d'un dessin ou d'une photo.
02:42 Cette image se compose par exemple de 1000 pixels de largeur pour 700 de hauteur,
02:48 soit 700 000 pixels au total.
02:50 L'enjeu est donc de générer artificiellement chacun de ces pixels
02:54 et de les agencer d'une manière cohérente et réaliste pour les humains.
02:59 Pour entraîner le programme, les chercheurs utilisent une image de référence, comme celle-ci.
03:05 Ils la dégradent progressivement en y ajoutant ce qu'on appelle du bruit.
03:11 À force, il ne reste plus grand-chose de la version originale.
03:16 Les scientifiques inversent alors la logique et demandent à la machine d'enlever le fameux bruit.
03:23 Le programme commence ici et tente de reconstituer les pixels de la version précédente.
03:29 Par essai-erreur, il finit par trouver la configuration attendue.
03:34 Il répète ensuite l'opération sur chaque maillon de la chaîne, jusqu'à restituer l'image de départ.
03:42 En s'exerçant ainsi sur des milliards d'images, il apprend à prédire l'agencement des pixels
03:48 et à transformer le bruit en une image cohérente.
03:53 Ce procédé s'appelle la diffusion.
03:59 Le deuxième apprentissage est de faire le lien entre le texte et l'image,
04:03 savoir que cette commande correspond à ce résultat.
04:09 Pour y parvenir, les chercheurs utilisent d'immenses bases de données,
04:13 composées d'images et de textes qui en décrivent le contenu.
04:19 Il y en a des milliards et ces programmes ont passé des centaines de milliers d'heures à les analyser.
04:26 Leur mission est de trouver des récurrences dans l'agencement des pixels.
04:31 Ils vont par exemple découvrir que cette configuration correspond généralement à une pomme
04:37 et celle-ci à une orange.
04:40 Ils analysent aussi la manière dont ces pixels interagissent avec d'autres combinaisons,
04:45 comme ici celle d'un bol métallique.
04:49 Ces exercices permettent au programme de saisir les nombreuses variables qui composent une image,
04:55 son style, ses textures ou le reflet de la lumière,
04:59 des observations qui vont bien au-delà de l'analyse pixel par pixel
05:03 et qui composent ce qu'on appelle l'espace latent de l'image.
05:07 À la fin de l'entraînement, le programme est capable de prédire avec assurance
05:14 la photo qui correspond à chaque description.
05:18 Et c'est là que la magie opère.
05:26 Car une fois le programme capable de faire le lien entre le texte et l'image,
05:32 les chercheurs peuvent inverser la commande
05:35 et lui demander d'utiliser la diffusion pour générer une nouvelle image,
05:39 même impossible, uniquement sur base d'un texte.
05:43 Et les possibilités sont infinies.
05:47 Ce qu'il faut bien comprendre, c'est que le programme ne fait pas un montage à partir d'images existantes.
06:02 Il génère des combinaisons inédites en s'inspirant de la manière dont les pixels
06:06 s'agencent statistiquement dans les bases de données qui le nourrissent.
06:10 Le résultat est donc chaque fois différent.
06:14 Mais c'est aussi de là que vient la faille du logiciel.
06:22 En fait, il ne comprend pas vraiment ce qu'il dessine.
06:25 À ses yeux, les mains ne sont qu'une combinaison de pixels,
06:29 statistiquement agencées au bout d'une autre combinaison appelée "bras".
06:35 Il ne comprend pas ce qu'est une main, sa tridimensionnalité, son anatomie,
06:41 la manière dont les doigts interagissent.
06:45 Sa connaissance est limitée à des images en deux dimensions reprises dans ses bases de données.
06:51 Or, si ces données ne contiennent pas suffisamment d'exemples,
06:54 il peut avoir du mal à générer des descriptions précises.
06:59 Sur ces images, le visage est très présent et s'affiche toujours de la même manière.
07:05 Deux yeux, un nez et une bouche.
07:09 La main, elle, est plus discrète et peut prendre des aspects très différents.
07:16 Enfin, le texte y fait rarement référence.
07:20 Ici, on ne parle pas de la manière dont les doigts tiennent l'appareil photo,
07:24 mais simplement d'une femme, souriante.
07:28 Alors forcément, quand le logiciel doit générer une requête similaire, il improvise.
07:35 À y regarder de plus près, d'autres éléments ne collent pas.
07:41 Les dents sont trop nombreuses.
07:43 Donald Trump a une jambe de trop.
07:46 Et le texte est totalement incohérent.
07:49 Pour l'instant, ce sont de bonnes astuces pour en vérifier la véracité.
07:53 Sauf que ça ne va pas tarder à changer.
07:56 En mars 2023, le logiciel à l'origine de ces images a publié une mise à jour,
08:11 où le rendu des mains a été amélioré.
08:15 L'entreprise reste floue sur les méthodes utilisées.
08:19 Mais les experts supposent que le programme a spécialement été entraîné sur des images de main,
08:25 ce qui lui donne plus de matière pour affiner sa création.
08:29 D'autres développent des générateurs d'images en trois dimensions.
08:34 S'ils ne sont pas encore très aboutis, une meilleure compréhension spatiale de la main
08:39 pourrait à terme leur permettre un meilleur rendu en deux dimensions.
08:45 À ce rythme, il est probable que ces logiciels maîtrisent un jour la fabrication des mains.
08:50 Et qu'il ne soit plus possible à l'œil nu de discerner le vrai du faux.
08:55 Mais cette confusion ne vaut pas que pour les images.
09:01 JatGPT, qui nous sert de guide depuis le début de cette vidéo,
09:05 est lui aussi entraîné sur d'énormes bases de données.
09:08 Des milliards de textes qui lui apprennent à prédire les mots d'une phrase,
09:12 sans pour autant que cette phrase soit vraie.
09:15 Tiens, reprenons par exemple cette citation de Léonard de Vinci,
09:20 mentionnée en début de vidéo.
09:23 Eh bien, elle n'existe pas.
09:26 Elle n'est pas présente dans le carnet en question.
09:29 Et nous n'avons pas été en mesure de la retrouver ailleurs dans son œuvre.
09:33 Il semblerait que JPT l'ait tout simplement inventée.
09:39 Face aux nombreuses questions soulevées par ces outils,
09:42 les autorités travaillent déjà à un cadre juridique.
09:46 Et il va falloir faire vite, car ces logiciels comptent chaque mois plus d'utilisateurs,
09:51 et en février 2023, JatGPT enregistrait un milliard de visites sur son site.
09:58 [Musique]
10:02 [Musique]
10:05 [Musique]
10:08 [Musique]
10:11 [SILENCE]
Commentaires