Passer au playerPasser au contenu principalPasser au pied de page
  • 13/02/2023

Catégorie

🗞
News
Transcription
00:00 La question du jour, après Chat GPT dans lequel Microsoft a investi 10 milliards de dollars,
00:05 c'est au tour du géant Google d'annoncer la sortie imminente de son propre agent conversationnel
00:10 à base d'intelligence artificielle.
00:11 Il va s'appeler Bard, il est attendu au mois de mars.
00:14 En Chine, Baidu, qui est donc un concurrent de Google, va lancer Ernie, qui remportera
00:21 cette nouvelle course technologique à l'intelligence artificielle dans laquelle se sont lancés
00:25 les géants de la tech.
00:27 Bonjour Laurence de Villers.
00:28 - Bonjour.
00:29 - Vous êtes professeure d'intelligence artificielle à la Sorbonne.
00:32 On vous doit notamment les robots émotionnels aux éditions de l'Observatoire.
00:35 Alors il faut tout d'abord nous expliquer pourquoi ces robots conversationnels sortent
00:39 quasiment au même moment, puisqu'on a eu droit à Chat GPT en décembre.
00:44 Là, donc en février, on en annonce au moins deux autres.
00:47 Ils faisaient tous la même chose au même moment ?
00:49 - Oui, parce qu'en fait, la science est mondiale.
00:53 On travaille ensemble, les chercheurs.
00:54 Et c'est vrai que depuis 2017, où on utilise ces grands modèles génératifs capables
00:59 d'explorer des milliards de données et d'arriver à créer des modèles avec des réseaux de
01:02 neurones, on a compris qu'il y avait une puissance de technologie qui était très
01:07 importante à prendre en compte.
01:08 Et tous les grands investisseurs, tous les GAFAM, sont en train de se battre.
01:11 Et vous avez raison, en Chine aussi, pour avoir les meilleurs systèmes.
01:15 Parce que derrière, il y a des développements faramineux ces cinq prochaines années.
01:18 Ça va être beaucoup de créativité autour de ces objets.
01:21 - Mais alors, qu'est-ce qui s'est passé en 2017 ? Parce que par exemple, les réseaux
01:23 de neurones, ces choses-là, on en parle depuis des dizaines d'années.
01:26 Donc, il y a eu un déclic il y a donc six ans.
01:29 - Oui, il y a effectivement un déclic avec les transformers, qui sont des modèles encodeurs-décodeurs
01:33 capables d'agréger ces gros paquets de données de façon extrêmement brillante pour prendre
01:38 en compte du contexte.
01:39 Et en fait, dans notre langage, finalement, dans la succession des mots, il y a du contexte.
01:43 Et ces systèmes prennent un contexte de plus en plus large.
01:46 Ce qui fait que vous prenez une phrase, vous enlevez un mot et vous essayez de prédire
01:49 ce mot et le modèle apprend, comme ça, énormément de contexte.
01:54 Et c'est du puzzle de mots, finalement.
01:56 C'est-à-dire qu'on va cracher de la ligne à partir de la probabilité d'avoir une succession
02:00 de mots.
02:01 - Mais alors, justement, c'est ça qui est frappant, en tout cas, pour le candidat que
02:04 je suis.
02:05 Ça m'étonne quand je dialogue avec Chad Gipity.
02:08 Je m'étonne que sa syntaxe soit parfaite.
02:10 Il ne fait pas de fautes ?
02:11 - La syntaxe est parfaite.
02:13 C'est ça qui était extrêmement brillant dans cette phase.
02:16 Parce que dans la succession des mots...
02:17 - Ces phrases ne sont pas toutes très malines, mais au moins elles sont exactes.
02:20 - Elles sont exactes d'un point de vue syntaxe.
02:22 C'est là absolument qu'il faut montrer la différence.
02:24 C'est-à-dire que ce système ne raisonne pas.
02:26 Par contre, localement, la syntaxe est bonne.
02:28 Donc on peut être très leurré par cela, en fait.
02:31 Et donc on a l'impression que c'est vrai, alors qu'il raconte n'importe quoi.
02:34 Il n'a pas de compréhension temporelle, donc il peut vous mélanger des dates.
02:38 Il n'a pas de compréhension de logique, pas de raisonnement, d'induction, déduction, tout
02:42 ça.
02:43 C'est vraiment des probabilités de succession de mots.
02:45 - Alors il a une forme de conscience, puisqu'il sait qu'il ment.
02:48 Par exemple, il invente des citations.
02:50 Il invente des citations.
02:52 Alors on lui dit "mais alors, cette citation, ce n'est pas du tout une citation de Wittgenstein".
02:56 Alors ça, il reconnaît qu'il a tout bidonné.
02:58 - Mais non, il est capable de reconnaître.
03:01 Et puis la phrase d'après, il va dire qu'il a raison.
03:02 Donc il n'y a aucune logique, en fait, de long terme.
03:05 - C'est peut-être le multiple self.
03:07 Il a plusieurs mois, Chad Jipiti.
03:09 - Oui, en fait, il faut quand même reconnaître la performance à travers tout cela.
03:14 Il faut absolument éduquer tout le monde parce qu'on entend des "waouh" partout, mais
03:18 on oublie qu'effectivement, ça génère des choses qui sont fausses.
03:21 Une espèce d'aléphination, d'imagination, alors tordante pour aller faire de l'invention
03:26 créative, mais absolument inexa pour un étudiant qui est en train de créer sa copie à partir
03:31 de ce que raconte ce système.
03:33 Donc il faut vraiment faire très attention.
03:35 Il peut être précis, et c'est vous qui le rendez précis parce qu'ils ont été malins.
03:38 Ils ont, par rapport à ce que faisait Google, et c'est pour ça qu'il y a cette guerre
03:41 en ce moment et tout le monde est sur ce sujet.
03:43 Ils ont effectivement rajouté un système qui s'adapte derrière à vos questions et
03:49 qui prend en compte de plus en plus le contexte de votre interaction avec la machine pour
03:53 affiner le sujet.
03:55 - Alors justement, il va y avoir plusieurs robots de ce type, je l'ai dit, Bard, Ernie.
04:00 Est-ce qu'ils vont tous utiliser la même technologie, Laurence de Villers ?
04:04 - Ils utiliseront probablement à peu près les mêmes technologies.
04:07 C'est ça qu'on voit.
04:08 Par contre, ils vont être nourris par différents corpus et là, il faut faire très attention.
04:12 Pour l'instant, en fait, GPT-3 qui parle notre langue parle en fait avec 50% de connaissances
04:17 en anglais.
04:18 Donc on risque d'arriver, si on n'est pas conscient, nous, qu'il faut en faire un en
04:22 Europe, sur des connaissances sur notre culture, sur nos opinions, qui seraient de la même
04:28 taille, eh bien on risque en fait d'être submergé par des générations qui viennent
04:34 de syntaxes justes mais avec un contenu sémantique qui vient soit de l'Asie, soit des États-Unis.
04:40 Donc il y a une guerre en ce moment.
04:41 - Alors, merci d'en arriver là parce qu'on voit effectivement qu'on va devoir le nourrir,
04:48 qu'on a des résultats qui pourraient être, selon vous, Laurence de Villers, très hétérogènes
04:52 parce qu'on voit qu'au moment où la guerre était au niveau des moteurs de recherche,
04:57 les résultats des moteurs de recherche étaient très hétérogènes.
05:00 Je ne vais pas en nommer mais il y avait des moteurs de recherche qui étaient nuls, qui
05:02 ne trouvaient rien.
05:03 - Non, non, mais il y a une vraie guerre et puis surtout il y a un nombre d'applications
05:06 derrière.
05:07 Il y a des résultats qu'il y ait à partir d'une application, un moteur de recherche,
05:11 un robot conversationnel.
05:12 Certains sont très performants, d'autres ne le sont pas du tout.
05:15 - C'est une taille, c'est la taille en fait critique aussi d'amalgame de toutes ces données.
05:21 Et puis derrière il y a des filtres, derrière il y a de l'apprentissage par renforcement
05:25 pour optimiser les réponses du système et les adapter plus à ce qu'on attend nous
05:29 humains.
05:30 Ça c'est fait par exemple, c'est ce que fait OpenAI qui a très intelligemment utilisé
05:35 à la fois ces gros modèles génératifs et dessus un agent conversationnel qui va chercher
05:40 les réponses et non pas sur le net parce que sur le net traîne n'importe quoi.
05:43 Là on agrège quelque chose, alors on sait que la série...
05:45 - Mais alors comment vous le nourrissez avec des informations exactes ? Non, c'est impossible.
05:50 - Alors on ne peut plus surveiller le contenu qu'on va utiliser puisque ce n'est pas directement
05:55 sur internet, d'accord ? Mais demain on risque aussi de l'avoir directement sur internet
05:59 et là on aura des fake news de partout, n'importe quoi.
06:02 Donc ce qu'ils font c'est à la fois de superviser finalement le corpus qu'on utilise en entrée,
06:07 il faut citer le projet Bloom en Europe qui en a essayé de monter aussi à la même capacité
06:12 avec un modèle aussi gros en assez peu de temps.
06:15 En fait il faut comprendre qu'on peut rentrer là en concurrence.
06:18 Il y a sur l'Europe, et ce que disait très bien Thierry Breton il n'y a pas longtemps,
06:22 on a une opportunité technologique et derrière une puissance sans fin de créativité pour
06:27 l'industrie en Europe.
06:28 - Bon vous n'allez pas nous refaire le coup du Google français parce que ça, ça a été
06:30 le cas...
06:31 - Je ne vais pas vous refaire le coup du Google français si l'industrie sait le faire.
06:34 J'étais dans le laboratoire où on travaillait sur le Google français, on ne peut pas dire
06:37 que c'est lié à la recherche.
06:38 - Mais alors pourquoi n'a-t-on pas réussi ?
06:40 - Parce que l'industrie ne s'est pas mobilisée, ne s'est pas risquée, les banques en Europe
06:44 ne savent pas risquer sur ces sujets.
06:46 C'est un problème d'argent mis sur la table.
06:48 - Combien il faudrait pour faire l'équivalent d'un chat GPT français ? Parce qu'on voit
06:54 que Microsoft a investi 10 milliards, c'est une part de l'investissement, ça veut dire
06:58 qu'en réalité le chat GPT a coûté beaucoup plus.
07:01 Il n'a pas coûté tant.
07:03 Si vous regardez un petit peu, le chat GPT est l'aîné de la société OpenAI qui a
07:07 réalisé cet exploit avec peut-être un milliard de dollars.
07:10 Derrière ça va être l'optimisation, l'agrégation de plus de données et je pense qu'il faut
07:18 absolument monter dans ce train parce que ce n'est pas terminé tout ça, ça va continuer.
07:21 La trajectoire est vers un infini de mots et de concaténations qui font de la syntaxe
07:27 correctement et qui, petit à petit, vont agréger des idées derrière.
07:30 Donc il est évident qu'on a tout intérêt à y aller et qu'on peut le faire, que financièrement
07:35 c'est possible et qu'on a des grands leaders en Europe pour le faire.
07:38 - Est-ce que ça veut dire qu'il y a des sociétés qui, aujourd'hui, se lancent en Europe là-dessus ?
07:44 - Elles se lancent, il y a des embryons, je ne vais pas citer de nom, mais c'est important
07:49 de comprendre qu'il y a là, même en montant que maintenant, un possible réellement parce
07:54 que ça va drainer derrière l'éducation, on va voir des applications un peu partout,
07:59 on commence à voir aussi l'utilisation de beaucoup de choses autour de la vision, donc
08:03 on va coupler des grands modèles de langage comme ça avec des dali ou des systèmes qui
08:09 génèrent des images.
08:11 Par exemple aux Etats-Unis, qui vont très vite évidemment, les restaurants utilisent
08:15 déjà les IA génératives pour créer des photos de menus qui pourraient convaincre
08:19 les clients de commenter davantage.
08:21 Donc on va avoir une manipulation derrière ce système et il est urgent qu'on comprenne
08:25 qu'il faut absolument réglementer, comprendre ce que sont les notions d'éthique, mais en
08:29 même temps créer et innover très très fortement en Europe.
08:32 - Merci beaucoup Laurence de Villers, je rappelle que vous êtes professeure d'intelligence
08:36 artificielle à la Sorbonne et on vous doit notamment les robots émotionnels, c'est
08:40 aux éditions de l'Observatoire.

Recommandations