- il y a 2 semaines
De l’inclusion algorithmique à la souveraineté numérique, cette émission donne la parole à celles et ceux qui construisent une IA à visage humain et européen. Jean-Baptiste Manenti éclaire les enjeux territoriaux et citoyens, Pierre-Carl Langlais défend la science ouverte et les modèles transparents, et Guillaume Avrin expose la vision stratégique d’une IA souveraine au service des entreprises et des institutions.
Catégorie
🗞
NewsTranscription
00:00C'est parti pour les interviews de l'IA, donc c'est notre grand nouveau rendez-vous de Smartech dans cette nouvelle saison.
00:10On en parle avec ceux qui font l'actu véritablement dans ce domaine.
00:14Aujourd'hui autour de la table, Jean-Baptiste Mananti, un ancien du Conseil national du numérique.
00:20Je vous avais d'ailleurs interviewé sur ces enjeux de médiation numérique.
00:23Vous êtes toujours très impliqués sur ce sujet de l'inclusion algorithmique.
00:26On va expliquer ce que c'est d'ailleurs cette inclusion algorithmique.
00:30Vous allez nous parler plus particulièrement d'une note que vous avez publiée avec d'autres experts sur les effets de l'IA.
00:36J'ai résumé ça, mais pour moi c'est le lien social qui est perturbé aujourd'hui avec l'IA et puis aussi toutes ces politiques sociales et de solidarité.
00:46A côté de vous, Pierre-Carles Langlais, bonjour.
00:48Vous êtes chercheur en IA, militant de longue date pour la science ouverte.
00:54Vous nous ferez découvrir le projet PLEIAS que vous avez cofondé.
00:58Pour le dire vite, c'est un laboratoire français spécialisé dans l'entraînement des modèles de raisonnement à partir d'un ensemble de données multilingues absolument unique par son ampleur, mais aussi par son ouverture.
01:11Vous allez nous expliquer ça également.
01:13Juste après, Guillaume Averin, notre autre invité.
01:16Bonjour Guillaume.
01:16Bonjour.
01:17On va commencer ensemble.
01:18Ancien coordonnateur national pour l'intelligence artificielle de la France.
01:23Donc vous avez piloté cette stratégie de la France dans le domaine de l'IA, dans le cadre de France 2030, qui a mobilisé 1,5 milliard d'euros.
01:33Quand même, il faut le rappeler, d'investissement public pour accélérer ce développement de l'intelligence artificielle en France et en Europe.
01:38Aujourd'hui, vous êtes le directeur du développement et des partenariats stratégiques chez Arlequin AI, start-up d'IA française, qui a été fondée très récemment, 2024,
01:47et qui développe une plateforme d'intelligence informationnelle, attention à ne pas confondre, qui est donc capable de cartographier, d'analyser, de comprendre tous ces flux d'informations qui nous entourent à une très grande échelle
02:00au service d'administration publique, mais aussi de grandes organisations privées.
02:04Dites-moi, Guillaume, c'est de la srette intelligence que fait Arlequin AI ?
02:07Oui, je pense que le sujet, c'est aujourd'hui, on parle énormément des risques associés au modèle d'IA les plus avancés, ce qu'on appelle les risques NRBC,
02:19de construction automatique de virus informatique ou biologique avec l'IA, mais le constat initial, et c'est un constat que je sais déjà quand j'étais à la coordination nationale pour l'IA,
02:28c'est qu'en fait, il y a des risques qui sont déjà beaucoup plus immédiats, beaucoup plus présents, qui sont des risques associés à la désinformation,
02:36et la désinformation qui est accélérée par l'intelligence artificielle, et quand on fait le lien entre, d'une part, cette réalité technologique
02:44et du risque associé à la désinformation par l'IA ou augmentée par l'IA, et d'autre part, je ne sais pas si vous avez lu le livre de Giuliano D'Ampoli sur les ingénieurs du chaos,
02:54il y a aussi ce constat qu'en fait, on a des ingénieurs du chaos qui utilisent ces nouvelles technologies pour finalement déstabiliser les démocraties,
03:02on fait assez rapidement le constat qu'il faut absolument qu'on s'équipe d'IA au service de la contre-influence, au service du contre-terrorisme,
03:09au service de la protection des intérêts nationaux et européens, et c'est vraiment l'ADN d'Arlequin, de ses cofondateurs,
03:16et pour moi c'était la continuité de la mission par rapport à la coordination nationale pour l'IA.
03:20Aujourd'hui, on a au niveau justement public, au niveau de l'État, on a Viginum, qui travaille au repérage de certaines pratiques,
03:29de campagnes en fait, de désinformation. Du côté des organisations, il y a de plus en plus d'acteurs aussi qui travaillent sur cette straight intelligence,
03:36mais pour vous, les enjeux sont tellement importants qu'on n'a pas encore mesuré la criticité au niveau des organisations pour s'emparer des bons outils ?
03:44Oui, je pense que Viginum s'intéresse énormément dans ses missions à l'identification de qui, du qui c'est qui pousse des narratifs
03:54qui impactent négativement les intérêts nationaux, et Arlequin AI avec ses technologies va plutôt dans l'analyse sémantique,
04:03c'est-à-dire quels sont ces narratifs, d'où viennent ces narratifs, est-ce que ces narratifs qui sont finalement poussés contre les intérêts de nos entreprises
04:12ou de nos administrations, est-ce que c'est les mêmes au Canada et au Mozambique ?
04:17Est-ce qu'il y a un croisement possible entre ces narratifs ? Et du coup, finalement, est-ce que ce n'est pas des groupes de personnes qui travaillent entre elles
04:22pour essayer d'attaquer, c'est des relais pour attaquer les intérêts nationaux ?
04:27Donc on a énormément d'échanges avec Viginum.
04:30Donc Viginum s'adresse au qui ? Vous vous intéressez au quoi ?
04:33Au quoi, exactement. Et finalement, la combinaison des deux, ça permet d'avoir une bonne analyse de l'espace informationnel,
04:39de pouvoir naviguer efficacement. Viginum est très orientée, bien sûr, publique.
04:43On travaille aussi pour des acteurs privés. On a un certain nombre de partenariats avec des grands groupes du CAC 40,
04:49avec aussi des fonds d'investissement, y compris en dehors de la France, au niveau européen.
04:54Donc finalement, les sujets de la maîtrise du risque associé à l'influence négative sur les réseaux sociaux,
05:02la gestion de crise, l'anticipation des ruptures de chaînes logistiques,
05:05tout ça, c'est des sujets, et bien sûr, l'intelligence économique, c'est des sujets pour lesquels
05:08on a besoin d'analyser des données en très grande dimension qui sont disponibles sur les réseaux sociaux,
05:13sur le web, dans la presse. Et finalement, l'outil permet de récupérer ces données.
05:18Et je sais qu'il ne faut pas que je rentre trop dans le détail technique et technologique.
05:24Quand même, ça m'intéresse, parce que j'imagine que l'IA est un outil utilisé pour brasser toutes ces données.
05:31Mais quoi spécifiquement comme technologie d'IA ?
05:33En fait, on a le pipeline Harlequin, c'est d'abord une IA non-supervisée qui va structurer cette donnée en très grande dimension
05:40pour finalement faire un scan informationnel, une représentation de l'information telle qu'elle existe naturellement dans cet espace.
05:47Ensuite, il y a un savoir-faire unique d'Harlequin scientifique sur cette partie IA non-supervisée.
05:52Ensuite, il y a plutôt un savoir-faire d'ingénierie qui est comment on connecte les sorties de cette IA non-supervisée
05:57avec des LLM pour finalement traduire en langage naturel pour l'analyste humain, pour le décideur humain,
06:02cette information pour lui permettre de naviguer efficacement dans ces différentes données informationnelles.
06:08Et ensuite, on a une IA agentique qui va aller envoyer la bonne information à la bonne personne au bon moment
06:14de manière à accélérer les chaînes de décision.
06:16C'est vraiment un pipeline complet sur cette...
06:19Il y a des responsables aujourd'hui de ces menaces au sein des grandes organisations ?
06:24Oui.
06:25Vous dites à la bonne personne, mais quelle est cette personne ?
06:26Nos contacts dans les entités que j'évoquais tout à l'heure, ça va être typiquement la direction de la sécurité,
06:35la direction du marketing pour les enjeux d'intelligence économique et de compétitive intelligence,
06:39la direction de la stratégie, parce qu'en fait, finalement, quand on est capable d'analyser des données en très grande dimension,
06:44on est aussi capable d'aller faire des recommandations extrêmement efficaces sur les orientations stratégiques
06:48à prendre pour le développement de l'activité, les directions de la communication, bien sûr,
06:54parce qu'il faut protéger l'image de la marque. Je pense à l'industrie du luxe.
06:57La marque, l'image de la marque, ça représente plus de 60% de la valeur boursière de l'entreprise.
07:03Donc, dès que la marque est attaquée par des narratifs hostiles, ça fait chuter en bourse ces valeurs.
07:10Et donc, il faut absolument les protéger et les équiper.
07:13Et ça prend la forme d'un dashboard, d'un tableau de bord ?
07:16Il y a plusieurs parties. Il y a d'abord, effectivement, la partie en sortie de l'IA non supervisée.
07:20Donc, c'est en gros une représentation de l'espace informationnel sous forme de poupées russes, de dendrogrammes,
07:25de dashboards, où on a un certain nombre de visuels disponibles.
07:28Là, c'est pour que l'analyse puisse très efficacement, de manière visuelle,
07:32avoir une idée de comment est organisé l'espace informationnel sur le sujet qui l'intéresse.
07:36Ensuite, il y a la partie langage naturel, qui est générée par le LLM, qui est sous forme de rapport.
07:42Il y a aussi un exécutif summary de deux pages, de manière à aller très, très vite dans l'accès à l'information.
07:46Il y a ce qu'on appelle Ascar Lequin.
07:48C'est une fonctionnalité plutôt de chatbot, mais qui va faire du RAG, pardon pour les expressions.
07:52Donc, le RAG, ça va être une technologie qui permet d'aller récupérer dans une base de connaissances
07:57l'information qui nous intéresse.
07:59En l'occurrence, la base de connaissances de l'organisation, pour nourrir uniquement d'informations validées.
08:04Tout à fait. Et la force, c'est d'être capable de croiser les informations internes de l'entreprise
08:08avec, justement, les informations disponibles en ligne.
08:11Et ce qui est très important, c'est que le RAG, on ne le fait pas sur la donnée brute,
08:15ce ne serait pas très intéressant, c'est le RAG classique.
08:18On le fait plutôt sur la sortie de l'IA non-supervisé, c'est-à-dire une fois que les croisements,
08:23une fois que l'analyse est faite.
08:25Et donc là, on est hyper pertinent, parce qu'on est capable de dire, de poser des questions du type
08:29« dis-moi, si les narratifs qui sont poussés par Trump sur l'AGI, par exemple,
08:35l'IA qui aurait un niveau d'intelligence qui serait égal à celui de l'être humain,
08:39finalement, c'est aligné avec les narratifs qui sont poussés par OpenAI en Europe. »
08:46Et ce type de croisement d'informations, elle n'existe pas dans la donnée brute.
08:49Elle ne peut être obtenue que par le croisement de ces différentes bases de données
08:52et donc en sortie de l'IA non-supervisée.
08:54Et peut-être un peu pour donner une image de ce qu'on fait, sans vouloir être trop long,
09:00c'est que l'IA non-supervisée, c'est un peu la différence entre entendre et écouter.
09:06C'est-à-dire qu'on ne se contente pas d'entendre, on écoute ce qui est dit, on le comprend
09:09et on arrive à en avoir une représentation pertinente.
09:13Et ensuite, la partie LLM, si on met justement de la donnée non comprise en entrée,
09:20en sortie, on a du bruit.
09:21Et la différence, c'est que si on a l'IA non-supervisée qui est plugé au LLM,
09:25au lieu d'avoir du bruit, on a du sens.
09:27Et c'est un peu ça la philosophie.
09:29C'est écouter et générer du sens à partir de cet espace informationnel.
09:32Vous avez des questions ? Vous découvrez le projet ?
09:35Absolument.
09:36Oui ?
09:37Je pense que ça entre en résonance avec beaucoup de choses qui se font à l'échelle territoriale
09:41sur le besoin justement de saisir ces enjeux informationnels,
09:44que ce soit au sein des entreprises, des collectivités ou du grand public.
09:47Oui, elles ont besoin, mais est-ce qu'elles ont conscience aujourd'hui que ça fait partie des menaces,
09:52en fait, cette menace informationnelle ?
09:55Je ne sais pas si elle est vraiment très bien prise en compte.
09:59Moi, je participais à un événement de la Villa Numéris, justement, sur ce sujet,
10:03en sensibilisant le secteur privé et donc les collectivités, en tout cas des organisations
10:10qui, a priori, ne se sentent pas forcément directement concernées par la menace informationnelle
10:14et qui, pourtant, le sont indirectement avec des dégâts qui peuvent être très importants.
10:19Je ne sais pas, les collectivités, ça fait partie des contacts que vous avez ?
10:21Eh bien, on a bien sûr des contacts, mais pas encore de clients, il me semble,
10:26à l'échelle régionale ou locale.
10:30Par contre, le gouvernement, c'est très clair.
10:32On a déjà comme client le gouvernement du Royaume-Uni,
10:35bien sûr le gouvernement français avec deux ministères,
10:38et également, on est en discussion très avancée avec l'Autriche, la Roumanie en particulier.
10:44Donc, on voit qu'au niveau gouvernement, indépendamment, justement, des frontières
10:47ou des compétitions qui pourraient exister entre les acteurs de l'IA,
10:50le sujet de la désinformation, de la contre-influence est tellement important
10:53qu'en fait, ça dépasse les frontières des différents États membres de l'UE
10:57et on arrive à bien collaborer ensemble.
11:00Et dans les ministères français, oui, c'est les ministères des Affaires étrangères, par exemple ?
11:04Eh bien, c'est ça qui est extraordinaire.
11:06Je me rappelle, quand j'étais à la coordination nationale pour l'IA,
11:08qu'on disait, oui, les administrations publiques ne vont pas assez vite
11:13dans l'intégration, dans l'expérimentation des technologies d'intelligence artificielle.
11:16Maintenant, je suis passé de l'autre côté de la barrière.
11:18Et c'est incroyable la rapidité et la compréhension technologique
11:23du ministère des Affaires étrangères et du ministère de l'Intérieur,
11:25en particulier, sur ces sujets.
11:27Ils sont exactement dans la démarche dont on a besoin pour innover.
11:32C'est-à-dire qu'on va discuter, on va exprimer des besoins,
11:35on va tester des technologies innovantes sur des cas d'usage.
11:40Et ça va hyper rapidement.
11:41Donc, les deux que j'ai mentionnés, c'est bien sûr ceux avec lesquels on travaille déjà.
11:44Mais en tout cas, c'est impressionnant et c'est super.
11:47Bon, bonne nouvelle.
11:48Jean-Baptiste Mananti, fondateur de Viam Iveniam,
11:52qui est un cabinet de conseil en stratégie territoriale,
11:55spécialiste de ces enjeux territoriaux du numérique.
11:58Vous publiez avec Aurélie Jean et l'Institut Terram l'étude
12:01IA, inclusion algorithmique, un enjeu de cohésion sociale, économique et territoriale.
12:07Alors, juste un mot sur l'Institut Terram.
12:09C'est un groupe de réflexion multidisciplinaire qui est dédié à l'étude des territoires.
12:13Je voulais avoir une petite explication sur inclusion numérique.
12:17Qu'est-ce que ça veut dire ?
12:18Inclusion algorithmique, vous voulez dire ?
12:19Pardon.
12:20Oui, parce que numérique, on en a déjà parlé, j'ai bien compris.
12:23Algorithmique.
12:23Alors, cette notion d'algorithmique,
12:26elle vise à, déjà s'inscrire dans le prolongement de l'inclusion numérique,
12:29donc il n'y a pas vraiment de confusion,
12:32mais elle vise à essayer de, on va dire,
12:36comprendre un ensemble de dynamiques et de politiques
12:38qui pourront venir permettre à chacun un usage éclairé
12:42et capacitant, on va dire, des technologies algorithmiques
12:45et de l'intelligence artificielle.
12:48Donc, on le structure autour de quatre dimensions.
12:50Donc, capacitant, ça veut dire comprendre comment ça marche
12:52pour pouvoir s'en servir ?
12:53C'est ça.
12:53L'idée, c'est, en gros, de réfléchir,
12:55en l'occurrence, dans le cadre de cette étude à l'échelle territoriale,
12:59comment est-ce qu'on va pouvoir venir mettre l'intelligence artificielle
13:01au service de son territoire, de ses habitants, de son quotidien,
13:05plutôt que d'avoir un territoire et des habitants
13:06qui sont au service de l'intelligence artificielle ?
13:08Parce qu'il y a ce risque.
13:09Parce qu'il y a ce risque.
13:10Comment il se manifeste ?
13:12Vous avez des exemples en tête ?
13:13Oui, absolument.
13:15En fait, le développement des systèmes d'intelligence artificielle
13:18fait naître, renforce le risque d'une France à deux vitesses
13:23quand on parle de technologie.
13:26Pourquoi ?
13:26Parce que, vous le savez, l'intelligence artificielle s'entraîne,
13:31fonctionne sur de grands ensembles de données.
13:33Et quand ces grands ensembles de données sont, on va dire, essentiellement centraux, urbains,
13:41on va avoir un risque de marginalisation de tous ces espaces,
13:44ruraux, périphériques, ultramarins, périurbains,
13:47qui ne rentrent pas dans cette norme, mais dans cette centralité.
13:50C'est un biais, en fait, inhérent.
13:53C'est exactement ça.
13:54C'est des biais, c'est des biais d'entraînement, c'est des biais algorithmiques
13:56qui vont avoir des conséquences très concrètes.
14:00En termes, par exemple, de maintien des stéréotypes à l'échelle territoriale.
14:04Pour vous donner un exemple, si vous allez sur un des grands modèles disponibles
14:07pour le public aujourd'hui et que vous lui demandez de créer une photo d'une femme bretonne,
14:10il y a de très forte chance qu'il vous sorte une photo d'une personne âgée
14:12avec un costume traditionnel, la bigoudenne, etc.
14:15Ça, c'est une image théorétypée.
14:16Donc, ça va être renforcé par tout ça.
14:19Et puis, il y a aussi un autre impact très concret qui est, je le disais,
14:22cette espèce d'invisibilisation de tout ce qui n'est pas au centre,
14:27de tout ce qui a la marge au sens premier,
14:30et donc de ce qui fait la spécificité de ces territoires.
14:33Et le résultat concret, c'est que localement,
14:35on va avoir des outils qui ne sont pas adaptés aux réalités territoriales.
14:39Et en plus de ça, on a une espèce de double peine qui se met en place
14:42puisque ces systèmes d'intelligence artificielle vont s'entraîner
14:46sur les données des utilisateurs qui s'en servent aussi quotidiennement.
14:51Et il se trouve que ces territoires, en particulier les territoires ruraux,
14:54sont parmi ceux qui ont les usages du numérique les moins développés,
14:58les moins fréquents.
14:59Et donc, on va avoir cette espèce d'auto-renforcement de double peine
15:02qui va contribuer à continuer à marginaliser,
15:05à fragiliser des territoires qui sont déjà fragilisés.
15:07En fait, on continue de parler de cette fracture numérique.
15:10Exactement.
15:10Il y a quand même, on entend beaucoup de projets dans les collectivités
15:14sur l'intelligence artificielle.
15:16Est-ce que vous dites, oulala, il faut qu'elles aillent doucement
15:18ou alors, c'est super, ça progresse ?
15:22Comment est-ce que vous réagissez par rapport à ça ?
15:23Alors, on ne dit pas du tout qu'il faut ne pas y aller, au contraire.
15:26Parce que justement, comme vous le dites,
15:28il y a des perspectives qui sont assez riches et hyper enthousiasmantes
15:32de développement de l'IA à l'échelle territoriale
15:33sur un nombre très important de sujets.
15:37mais justement, ça nécessite de mettre en place, on va dire, ce cadre
15:43pour nous assurer que ces services et ces outils et ces systèmes d'IA
15:46qui sont déployés localement servent réellement le local.
15:50Et c'est là qu'intervient cette notion d'inclusion algorithmique
15:52qui recouvre quatre grandes focales, on va dire.
15:56Une focale sur l'accès, le fait de pouvoir accéder au matériel,
16:00à une connexion de qualité, à des outils spécifiques.
16:03L'usage, le fait de savoir manipuler au final ces outils
16:06et les mettre au service de son quotidien.
16:08La compréhension, comprendre comment fonctionnent ces outils, d'accord,
16:11mais aussi comprendre leurs impacts.
16:13On parlait par exemple des impacts informationnels.
16:15Ça fait partie de cette culture numérique,
16:16de cette culture algorithmique qu'il faut développer.
16:18Et puis le dernier point, c'est la conception.
16:21C'est-à-dire comment est-ce qu'on va réussir à intégrer,
16:23dès la création de ces outils, cette visée émancipatrice et inclusive.
16:28Une question, une remarque ?
16:29Oui, une remarque et question.
16:32La remarque, c'est que ce qui est hyper intéressant,
16:35c'est effectivement de faire ce constat qu'on ne peut pas séparer
16:38le sujet du développement et du déploiement de l'IA.
16:41On pourrait avoir tendance, d'un point de vue stratégique,
16:43de se dire, d'une part, il faut que je trouve une manière
16:46d'accélérer l'adoption de l'intelligence artificielle
16:48dans mes entreprises, dans ma société, etc.
16:50Et d'autre part, il faut que j'ai une politique industrielle
16:53pour développer des systèmes d'IA et on sépare les deux.
16:56Et en fait, les deux sujets sont liés.
16:58Parce que pour que l'IA soit adoptée et adoptée efficacement
17:01et qu'elle serve effectivement les intérêts des populations
17:04au niveau local, il faut que finalement ces IA soient adaptées
17:06à leurs besoins, leur manière de parler, leurs valeurs,
17:11tout un ensemble de critères, de caractéristiques
17:15qui fera qu'effectivement cette IA, elle va apporter toute sa plus-value.
17:20Et d'ailleurs, ce qui est aussi intéressant, c'est que finalement,
17:23ces communes qui sont marginalisées sur l'IA,
17:28en fait, c'est un peu ce que la France et l'Europe ont vécu
17:30il n'y a même pas deux ans sur les LLM,
17:34où en fait, tous les LLM qui existaient sur le marché
17:37étaient des LLM entraînés par des entreprises américaines
17:39qui finalement ne correspondaient pas du tout aux valeurs françaises
17:43et européennes.
17:44Et il était nécessaire du coup, pour apporter de la création de valeur
17:47dans nos entreprises, il fallait avoir des nouveaux LLM
17:51qui répondaient davantage à nos besoins.
17:53Déjà, à commencer par dire des LLM qui fonctionnent bien en français.
17:56Parce qu'ils étaient très bons en anglais,
17:58mais clairement moins bons sur les benchmarks en français.
18:00Donc c'était la première étape.
18:01Et donc c'est intéressant de voir cette continuité
18:03jusqu'au niveau de la commune.
18:05Mais les communes n'ont pas les mêmes moyens
18:06que la France et l'Europe dans son ensemble.
18:08Tout à fait. Et la question, c'est du coup,
18:10au niveau européen, une des options qui a été trouvée
18:13pour travailler sur le sujet, c'était de créer l'Altedix,
18:16une entité européenne qui a vocation à regrouper des langues,
18:19en particulier des langues rares au niveau de l'UE,
18:22pour pouvoir aider le développement de systèmes d'IA.
18:25Est-ce qu'on pourrait imaginer la même chose
18:26au niveau des communes ?
18:29Le sujet de la mutualisation, de toute façon,
18:32il est central aujourd'hui.
18:34Parce que, comme vous le disiez,
18:35si on regarde un peu quelles sont les communes
18:37qui aujourd'hui développent vraiment des grands projets d'IA,
18:40évidemment, c'est plutôt les métropoles,
18:41c'est plutôt les régions, c'est plutôt certains départements.
18:44Mais plus on a une commune qui est petite,
18:46évidemment, moins on aura les moyens
18:47et les ressources en interne pour le faire.
18:49Ceci dit, il y a des espaces et des démarches
18:51de multidialisation qui existent,
18:53que ce soit pilotés à l'échelle nationale,
18:55au sein de structures comme les interconnectés,
18:57ou que ce soit à l'échelle locale,
18:58avec des structures comme les OPSN,
18:59les opérateurs publics de services numériques,
19:01qui peuvent aller accompagner justement des collectivités
19:03qui n'ont pas forcément en interne cette ressource numérique,
19:06à mettre en place des projets
19:08et donc à mutualiser à la fois des outils,
19:11des réflexions, des sessions de formation, d'appropriation.
19:13Mais ça veut dire aussi qu'en interne,
19:15dans les collectivités,
19:16il faut qu'ils soient bien conscients du cadre,
19:17qu'ils puissent faire une commande éclairée par tout ce que...
19:20Donc, il faut qu'ils lisent votre note, pour résumer.
19:24Pierre-Carles Langlais,
19:25je disais que vous étiez un chercheur en IA,
19:28le cofondateur de Pleyas,
19:30donc vous allez nous expliquer de quoi il s'agit.
19:32Vous êtes aussi administrateur sur Wikipédia,
19:35puisqu'on parle de données ouvertes et de sciences ouvertes,
19:38donc je pense que c'est pertinent de le préciser.
19:40Vous avez co-rédigé un rapport pour la Commission européenne
19:44sur l'édition en accès libre non commercial,
19:46coordonné la publication du Common Corpus,
19:49donc un jeu de données,
19:51le plus grand jeu de données ouvert,
19:53disponible pour l'entraînement des modèles de langage.
19:55Donc Pleyas, c'est un laboratoire aujourd'hui
19:57spécialisé dans l'entraînement
19:58de petits modèles de raisonnement,
20:01d'environnement synthétique,
20:02vous dites aussi pour les industries réglementées,
20:05qui est vraiment pionnier dans l'entraînement
20:07à partir de données ouvertes.
20:09Ça, j'ai bien tout noté,
20:10mais ma question, c'est,
20:12les autres LLM, par exemple,
20:15ils ne vous ont pas attendu
20:16pour aller chercher toutes les informations dans Wikipédia.
20:19Alors, les données ouvertes sont déjà,
20:21font partie aujourd'hui ?
20:22Non, pas vraiment.
20:23Le problème principal, vraiment,
20:25c'est de définir ce qu'on entend par ouvert,
20:26en fait.
20:27Et la question, en fait,
20:28elle est au cœur,
20:29enfin, c'est vraiment la question des droits d'auteur,
20:30en fait, aujourd'hui,
20:31qui est au cœur, en fait,
20:31des problématiques d'IA.
20:32Donc, tout récemment,
20:34Anthropique a dû payer 1,5 milliard de dollars
20:36à des auteurs,
20:38dont ils avaient récupéré leurs œuvres.
20:40Et en fait, aujourd'hui,
20:40le cœur de ce qu'il utilisait
20:41pour entraîner les IA,
20:43c'est, alors Wikipédia est dedans, bien sûr,
20:45mais surtout,
20:45c'est ce qu'on appelle
20:46le crawling du web, en fait.
20:48Et là, ça rejoint aussi
20:48ce que disait, justement,
20:49Jean-Baptiste, juste avant,
20:50c'est qu'en fait,
20:51on est sur une démarche
20:51de collecte générale,
20:53mais pas très pensée,
20:53parce qu'elle a été pensée
20:54pour l'archivage,
20:55qui est faite par une toute petite organisation
20:57qui s'appelle Common Crawl,
20:58ils sont quatre,
20:59et ils ont pas les structures
21:00pour notamment récupérer
21:01tout ce qui est document PDF.
21:03Et là, c'est au cœur,
21:04notamment, du problème
21:04qu'on a aujourd'hui
21:05dans le domaine industriel,
21:06en réalité.
21:07Parce qu'aujourd'hui, du coup,
21:08toute la donnée qu'on récupère,
21:09en fait, c'est vraiment
21:10une donnée web,
21:11mais qui est très décorrélée,
21:12finalement, des usages.
21:13C'est pas dans ces données
21:14notamment qu'on va trouver aussi,
21:15notamment,
21:15toutes les lignes régionales,
21:16typiquement,
21:16c'est beaucoup plus de documents,
21:18des choses comme ça,
21:18dans lesquels on va trouver ça.
21:19Et aujourd'hui,
21:20l'exemple que j'aime bien citer
21:22pour montrer ce décalage,
21:23en fait,
21:23c'est celui des montres.
21:24Parce qu'aujourd'hui,
21:25si vous demandez
21:26à un modèle de vision
21:27de lire l'heure,
21:28il aura beaucoup de mal.
21:29Et pourquoi ?
21:30Simplement parce que
21:31si vous tapez montres
21:32sur le web,
21:33vous avez que des montres,
21:34arrêtés.
21:35Ils sont pas dans le monde vivant.
21:38Et ça, aujourd'hui,
21:38c'est un vrai problème,
21:39aujourd'hui, aussi.
21:40Donc, ce qu'on a voulu créer
21:41avec Common Corpus,
21:42aujourd'hui,
21:42c'est le plus grand corpus,
21:43en fait,
21:44disponible sur BingFace.
21:46On peut télécharger.
21:47Alors, je ne vous conseille pas
21:47de le faire
21:48parce qu'il est très, très grand.
21:49Ça fait 2000 milliards de mots.
21:50Je ne sais pas
21:51ce qu'on en ferait.
21:51Alors, voilà.
21:52Donc, c'est beaucoup de lecture,
21:53j'avoue.
21:53Il y a beaucoup de choses
21:54à transporter
21:54pour l'avoir fait.
21:56Mais, donc,
21:57c'est beaucoup.
21:57C'est multilingue.
21:58C'est en plusieurs langues européennes,
22:00notamment.
22:00Le français est très bien représenté
22:01avec 300 milliards de mots.
22:02Mais dedans,
22:03on trouve, par exemple,
22:04les e-pubs ?
22:05Non, justement,
22:06on trouve très peu de livres,
22:07malheureusement,
22:08parce qu'il y a très peu de livres
22:09en libre accès.
22:10Ce qu'on trouve,
22:10c'est principalement
22:11quatre grands ensembles.
22:12Donc, d'abord,
22:13effectivement,
22:13tout ce qui va être
22:14science ouverte,
22:15notamment les publications scientifiques.
22:16Il y en a énormément,
22:17maintenant,
22:17qui sont en accès libre.
22:18Tout ce qui va être
22:19logiciel libre.
22:20Et là aussi,
22:20il faut savoir
22:20que les modèles,
22:21aussi, sont très utilisés
22:21pour générer du logiciel.
22:23Tout ce qui va être
22:24patrimonial, aussi,
22:26parce qu'en fait,
22:26on a plein de textes
22:27dans le domaine public
22:28qui n'ont plus le droit d'auteur,
22:29qui sont, pour le coup,
22:30des livres.
22:30Là, il y a beaucoup de livres,
22:31en réalité.
22:32Et là,
22:32les textes un peu anciens,
22:33évidemment,
22:34mais qui ont quand même
22:34une forte qualité de raisonnement,
22:36de rédaction, par derrière.
22:37Et puis, dernièrement,
22:37le plus important,
22:39et là aussi,
22:39où on participe justement
22:40au vieux mentionné Altédic,
22:41on participe justement
22:42à la coordination
22:42des collectes d'Altédic
22:44pour tout ce qui va être
22:44données gouvernementales ouvertes,
22:46en fait.
22:47Tout ce qui est rapport,
22:47etc.,
22:48aussi,
22:48c'est un ensemble qui est très riche.
22:49Mais juste,
22:50on parle là de français ou de...
22:52Langues,
22:52toutes langues confondues.
22:53Combien ?
22:54Au total,
22:55donc,
22:55de langues représentées,
22:57il y en a environ 30,
22:58en Common Corpus,
22:59et il en faudrait plus.
23:00Et là,
23:01aujourd'hui,
23:01on travaille notamment
23:01à des projets de déploiement
23:02en Afrique,
23:03et là,
23:03je reconnais tout le constat
23:04qui était mentionné juste avant,
23:06dès qu'on commence à toucher
23:07à des langues tous débines,
23:09c'est-à-dire que les modèles,
23:10même pour faire le RAC,
23:11typiquement,
23:11les modèles de recherche,
23:12John Bidding,
23:13ne fonctionnent plus,
23:14la génération ne fonctionne plus,
23:16donc tout le monde fonctionne.
23:18Et aujourd'hui,
23:18c'est là où...
23:19La modération de Facebook
23:20ne fonctionne plus
23:21sur certaines langues.
23:22Oui, tout de fait,
23:23mais c'est général,
23:24en fait.
23:24Et donc,
23:24c'est vrai qu'aujourd'hui,
23:25on a besoin d'un outillage.
23:27Alors,
23:27on a aussi besoin d'un outillage
23:28plus ouvert
23:29pour tout ce qui veut être
23:29domaine régulier aujourd'hui.
23:30On sait qu'à quel point,
23:31aujourd'hui,
23:32les banques...
23:33Expliquez-nous ça, oui.
23:34En fait,
23:34c'est très réticent
23:35à utiliser l'IA
23:36pour plusieurs raisons.
23:37D'une part,
23:37parce qu'aujourd'hui,
23:38c'est une question d'hébergement.
23:39Il y a plein de données personnelles
23:40qui sont responsables.
23:41Et aujourd'hui,
23:41les déployeurs d'IA
23:42sont complètement responsables
23:43de ce que génèrent
23:44les modèles en Europe.
23:45Donc, concrètement,
23:45si votre modèle a été entraîné
23:46sur des corpus
23:47avec beaucoup de données
23:48sur un radoteur,
23:50beaucoup de données
23:50sur des données personnelles,
23:51etc.
23:52Et on sait que les gros modèles,
23:53notamment,
23:54on mémorise très bien.
23:55Vous êtes responsables.
23:57Et aujourd'hui,
23:57il y a un peu de réticence.
23:58En fait,
23:58ça freine l'écosystème
24:01de l'IA en France.
24:01Ça freine l'écosystème
24:02et ça freine aussi
24:08pas entraîné aujourd'hui
24:08pour les environnements,
24:10pour les tâches,
24:10en réalité,
24:12de ces entreprises.
24:13Donc,
24:13on avait créé
24:14le Common Core Plus
24:14l'année dernière.
24:15Donc, c'est vraiment
24:15une collecte
24:16au sens très large.
24:17Alors,
24:17vu ce qu'on est en train
24:18de faire dans la version 2
24:19qui va sortir,
24:20qui s'appelle Racint
24:20et qu'on fait en partenariat
24:21avec iAlliance et IBM,
24:24c'est en fait
24:24une version synthétique
24:26de Common Core Plus.
24:28Et l'idée,
24:28c'est de prendre
24:29un petit ensemble.
24:30Donc, on a pris,
24:31puisque je suis ministre
24:31de l'équipe d'ailleurs,
24:32du coup,
24:32je savais qu'il y avait
24:33cette recense
24:33qui existait.
24:34On a une sélection
24:34par la communauté
24:35de 50 000 articles
24:36qui sont au cœur
24:37de ce qu'on va savoir.
24:38Et ma réflexion
24:39depuis longtemps,
24:39c'était le fait
24:40que ces modèles,
24:40en fait,
24:41aujourd'hui,
24:41c'est vrai qu'on leur met
24:42tout le web dedans.
24:44Est-ce que c'est vraiment utile ?
24:45Combien de livres
24:46vous avez eu dans votre vie ?
24:47De centaines.
24:48Oui, mais c'est ça,
24:48l'intérêt d'avoir une IA,
24:49c'est qu'elle en a lu
24:50plus que moi.
24:50Oui, mais en réalité,
24:52si on vise,
24:53et là, ce qui est intéressant,
24:54c'est est-ce qu'elle a lu
24:54les bons livres ?
24:55Oui.
24:56Et en fait,
24:56il y a plein de livres
24:57qui ne vont pas être là
24:58ou qui ne vont pas
24:58être bien assimilées.
24:59Il y a plein de règles
25:00lorsqu'on voit une entreprise.
25:01En fait,
25:01on a plein de guidelines,
25:03de règles,
25:04de normes, etc.
25:05En banque,
25:06très simplement.
25:07On a plein aujourd'hui
25:08de représentations de données
25:09pour les transferts bancaires,
25:10par exemple.
25:10Il n'y a pas de données ouvertes
25:11pour ça.
25:12Tout est de données personnelles.
25:13Donc, en fait,
25:14il faut les inventer,
25:14ces données.
25:15Il faut les écrire.
25:16Donc, on va utiliser
25:16des modèles de langue
25:17avec des contraintes
25:18pour générer,
25:19en fait,
25:19ce corpus à l'échelle,
25:20l'amplifier,
25:22faciliter sa mémorisation
25:23dans le modèle lui-même,
25:24ce qu'on appelle
25:24un environnement synthétique.
25:26Et ça, en revanche,
25:26c'est de plus en plus utilisé
25:27par les grands labs américains,
25:28par les grands labs chinois aussi
25:29qui émergent très fortement
25:30depuis quelques mois
25:31et pour les usages industriels.
25:33Donc là,
25:34on est vraiment
25:34sur le cœur de l'idée.
25:35Vous êtes dans un domaine
25:36qui est l'assurancière.
25:37Et là,
25:37vous le faites
25:38pour gérer des clients
25:39à l'international
25:40ou vraiment
25:41vous travaillez sur un marché français ?
25:41Principalement européen.
25:43Européen.
25:44Européen, en fait.
25:45Une partie de Playas
25:45est en Allemagne.
25:46Donc, on a un laboratoire
25:47de recherche privée.
25:47On a une partie en Allemagne
25:48à l'Université de Wurzburg.
25:50Et donc,
25:50on travaille avec des acteurs
25:51principalement,
25:52effectivement,
25:52en Europe.
25:53D'accord.
25:53Donc, principalement
25:54sur des langues européennes.
25:55Sur des langues européennes,
25:56secteur régulé.
25:56Donc, on est principalement
25:57en médecine, beaucoup.
25:58On est en transport.
25:59On est dans la banque.
26:00C'est super, ça.
26:01Et il y a un vrai manque
26:02aujourd'hui, en fait.
26:03Open Day n'est pas suffisant.
26:04Oui.
26:05Et c'est hyper curieux
26:07comment les 50 000 articles,
26:08c'est quoi les critères
26:09que vous utilisez
26:10pour les sélectionnés ?
26:11Alors, c'est une sélection
26:12par la communauté, en fait.
26:13Ils ont décidé,
26:14à un moment donné...
26:15C'est un Wikipédien qui parle.
26:15Ça a duré 20 ans,
26:17évidemment, à la Wikipédia,
26:18avec plein de discussions,
26:19plein de gens qui s'engueulent.
26:20C'est très bien, c'est vivant.
26:21Et donc, ces 50 000 articles,
26:23du coup, c'est une bonne image,
26:24je trouve,
26:25de ce qu'une personne
26:25très cultivée connaîtrait,
26:26en réalité.
26:27Donc, c'est plein de choses,
26:28en plein de domaines,
26:28en mathématiques, chimie,
26:30littérature, etc.
26:31Et est-ce que vous partez,
26:33par exemple,
26:33d'un corpus en français
26:35et qu'ensuite,
26:36vous traduisez
26:36pour l'avoir dans toutes les langues
26:38ou vous allez chercher
26:40chaque version originale ?
26:41Exactement, en fait.
26:42On va chercher
26:42les différentes versions originales.
26:43Donc, on n'est pas
26:44de partir de l'anglais,
26:44en fait, à l'origine.
26:45Et ensuite, après,
26:46on est allé dupliquer ça
26:47et l'étendre.
26:48Ce qui est très intéressant...
26:49Donc, ce n'est pas de la traduction,
26:50c'est vraiment des VO ?
26:51Alors, c'est un peu des deux,
26:52en fait.
26:52Ce qui est très intéressant,
26:53et que, justement,
26:54la génération synthétique,
26:55du coup,
26:55c'est qu'on est dans une logique
26:56où on ne part de rien
26:57et après, on élargit.
27:05Après, on peut se donner
27:05le modèle sera bien meilleur.
27:07Et Pierre-Carles, vous avez...
27:09Eh bien, oui,
27:09ce sera la dernière question
27:10et très rapide, oui.
27:11Oui, si on entraîne
27:12le LLM sur cette base de données,
27:14un LLM de faible taille,
27:15sur cette base de données synthétique,
27:17vous avez fait les benchmarks.
27:18Est-ce qu'on arrive
27:18à avoir des...
27:19On est à l'état de la ronde.
27:20On est à l'art, tout à fait.
27:21Exactement.
27:21En fait, on a entraîné
27:22un modèle qui s'appelle
27:23Baguette au tronc.
27:25Fais ce qu'il est...
27:25Et vous nous ferez
27:27une démonstration
27:28la prochaine fois.
27:28Exactement.
27:29Parce qu'on a plus de tout le temps.
27:35de Viam Iveniam,
27:36co-auteur de l'étude
27:37IA, inclusion algorithmique,
27:39un enjeu de cohésion sociale,
27:40économique et territoriale
27:42pour l'Institut Terram.
27:43Pierre-Carles Langlais,
27:44CTO de PLEIA.
27:46C'est Guillaume Averin,
27:46directeur de développement
27:47et des partenariats stratégiques
27:48chez Arlequin AI.
27:50Merci encore.
27:50Merci à vous de nous avoir suivis
27:52sur la chaîne Bsmart.
27:53C'était Smartech.
27:53A très bientôt.
Recommandations
17:25
|
À suivre
56:32
28:24
28:45
13:48
5:19
26:55
5:57
1:28:21
26:12
Écris le tout premier commentaire