Passer au playerPasser au contenu principal
  • il y a 13 heures
Mission d’information sur l’intelligence artificielle : Mme Audrey Herblin-Stoop, directrice des affaires publiques de l’entreprise Mistral AI, et M. Cyriaque Dubois, chargé d’affaires publiques

Catégorie

🗞
News
Transcription
00:00:00Merci.
00:00:30Merci.
00:01:00Merci.
00:01:30Merci.
00:02:00Merci.
00:02:30Merci.
00:03:00Merci.
00:03:30Merci.
00:04:00Merci.
00:04:30Merci.
00:05:00Merci.
00:05:30Merci.
00:06:00Merci.
00:06:30Merci.
00:07:00Merci.
00:07:30Merci.
00:08:00Merci.
00:08:30Merci.
00:09:00Merci.
00:09:30Merci.
00:10:00Merci.
00:10:30Merci.
00:11:00Merci.
00:11:30Merci.
00:12:00Merci.
00:12:30Merci.
00:13:00Merci.
00:13:30Merci.
00:14:00Merci.
00:14:30Merci.
00:15:00Merci.
00:15:30Merci.
00:16:00Merci.
00:16:30Merci.
00:17:00Merci.
00:17:30Merci.
00:18:00Merci.
00:18:30Merci.
00:19:00Merci.
00:19:30Merci.
00:20:00Merci.
00:20:30Merci.
00:21:00Merci.
00:21:30Merci.
00:22:00Merci.
00:22:30Merci.
00:23:00Merci.
00:23:30Merci.
00:24:00Merci.
00:24:30Merci.
00:25:00Merci.
00:25:30Merci.
00:26:00Merci.
00:26:30Merci.
00:27:00Merci.
00:27:30Merci.
00:28:00Merci.
00:28:01Merci.
00:28:02Merci.
00:28:03Merci.
00:28:04Merci.
00:28:05Merci.
00:28:06Bien.
00:28:07Nous poursuivons les travaux de notre mission d'information, création, diffusion et acquisition
00:28:11des connaissances, comment l'intelligence artificielle transforme notre éducation et notre culture,
00:28:16avec l'audition, avec l'audition aujourd'hui, avec l'audition aujourd'hui de Mme Audrey Herblastop, directrice
00:28:21des affaires publiques de Mistral IA, et de M. Syriac Dubois, chargé d'affaires publiques
00:28:32de la même entreprise.
00:28:33Nous vous remercions, Madame, Monsieur, d'avoir accepté notre invitation.
00:28:37Ne soyez pas surpris, nous ne sommes pas très nombreux dans la salle, mais l'ensemble de
00:28:42nos débats est retransmis directement sur le site de l'Assemblée nationale, et les gens
00:28:48qui n'auront pas pu nous rejoindre pourront suivre les débats en direct ou en replay.
00:28:54Notre mission d'information cherche à identifier et à anticiper les bouleversements du monde
00:28:59de la culture et de l'éducation, induits par l'éruption de l'IA générative dans nos vies.
00:29:08Il y a également un enjeu de souveraineté, c'est-à-dire la dépendance de l'Europe aux technologies
00:29:14américaines, qui va de pair, qui peut aller de pair avec une forme de colonisation de nos
00:29:21imaginaires, notamment, et c'est une question qui a aussi très à l'identité, et aux valeurs
00:29:28européennes.
00:29:29Arthur Mensch, le fondateur de Mistral, a d'ailleurs défendu la souveraineté numérique européenne
00:29:34au Forum économique mondial de Davos récemment.
00:29:36Peut-être pourrez-vous nous en dire quelques mots.
00:29:39En bien ou en mal, l'IA générative a fait son entrée dans le monde scolaire et universitaire.
00:29:48Beaucoup de professeurs sont déconcertés, parfois méfiants, face à des outils qui risquent
00:29:53de les concurrencer, pensent-ils, dans ce qu'était alors leur monopole, la transmission
00:29:58du savoir.
00:29:59Mistral a lancé un partenariat avec plusieurs universités françaises.
00:30:04Quels en sont les objectifs et les premières réalisations, et quels sont les bénéfices et les
00:30:09risques associés à l'utilisation de l'IA en matière éducative dans le scolaire et dans l'universitaire,
00:30:14et dans l'universitaire, y compris la recherche.
00:30:16J'ajouterais une chose, c'est la question de la langue française aussi.
00:30:20Les algorithmes sont tous, enfin, 90% d'origine anglo-saxonne.
00:30:26Ils véhiculent forcément les valeurs de la civilisation anglo-saxonne, quid de la francophonie
00:30:35et des valeurs que véhicule notre propre langue nationale.
00:30:39En bien ou en mal, donc, les choses avancent, et je voudrais vous demander également ce
00:30:46que vous pensez de la question du partage de la valeur et du droit d'auteur.
00:30:51Les représentants des auteurs s'estiment lésés par l'utilisation de leurs œuvres à
00:30:55la fin d'entraînement des systèmes d'IA, sans qu'on puisse exactement identifier les
00:31:00sources de ces entraînements.
00:31:02Des procédures judiciaires sont d'ailleurs en cours, et force est de constater que le
00:31:07règlement européen sur l'IA n'a pas apporté de réponse claire aux questions que se pose
00:31:12le monde de la culture.
00:31:14Une constatation entre les ayants droit culturel et les fournisseurs d'IA s'est tenue récemment.
00:31:20Quels enseignements en avez-vous tirés ? Que mettez-vous en œuvre pour respecter le droit d'auteur,
00:31:24qui est un principe cardinal du droit et de l'histoire de France ?
00:31:28Je vais vous passer la parole. Nous allons travailler de la manière suivante.
00:31:32Vous avez dix minutes, Madame, Monsieur, pour un propos liminaire, à peu près dix minutes.
00:31:36Et ensuite, évidemment, Madame la rapporteure vous posera les questions qu'elle a préparées
00:31:40et que vous avez probablement reçues déjà au préalable. Très bien. Je vous passe la parole. Merci.
00:31:45Monsieur le Président, Madame la rapporteure, Mesdames, Messieurs, merci beaucoup de votre invitation
00:31:49à participer aux travaux de cette mission.
00:31:51Mistral, vous l'avez dit, incarne une ambition européenne, celle de l'intelligence artificielle indépendante,
00:31:58ouverte et au service de la diversité culturelle et linguistique.
00:32:01Fondée en 2023, donc c'est quand même encore très récent, notre entreprise s'est rapidement imposée
00:32:06comme une alternative crédible aux géants américains et chinois, ne les oublions pas,
00:32:10dans l'intelligence artificielle, en développant des modèles d'intelligence artificielle générative,
00:32:15open source, performant et conçu surtout pour redonner du contrôle à nos partenaires,
00:32:21nos partenaires étant principalement des entreprises, des institutions, les services publics
00:32:25et les développeurs, donc les chercheurs et les développeurs informatiques.
00:32:29Notre approche, elle repose sur quatre piliers stratégiques.
00:32:33Le premier, c'est l'indépendance européenne.
00:32:35Les transformations qui sont permises par l'IA, vous l'avez mentionné, ne se limitent pas à des questions technologiques.
00:32:41Cette technologie est transformatrice, elle est révolutionnaire et elle va redéfinir les équilibres économiques,
00:32:47les équilibres sociétaux, les équilibres culturels.
00:32:50Il nous semble indispensable aujourd'hui de pouvoir disposer d'une alternative européenne dans cette technologie.
00:32:56Aujourd'hui, il y a eu une très forte domination américaine et chinoise en la matière
00:33:02et il nous semble indispensable d'avoir à minima une alternative européenne.
00:33:06On aimerait qu'il y en ait plus.
00:33:08L'open source, c'est la deuxième caractéristique de Mistral.
00:33:11Nos modèles sont conçus pour être portables, ouverts et accessibles.
00:33:15Le premier but de l'open source, c'est d'abord de démocratiser l'accès à la technologie,
00:33:18de permettre à tout un chacun de s'en saisir,
00:33:21de permettre aux développeurs de construire des applications sur cette technologie.
00:33:25Cela permet aussi de ne pas enfermer les partenaires dans une technologie.
00:33:29Cela veut dire qu'ils peuvent continuer à utiliser la technologie,
00:33:33même si l'entreprise venait à changer de stratégie ou venait à disparaître.
00:33:39C'est un point très important pour donner le contrôle à ses partenaires.
00:33:42Cela permet aussi de créer de la transparence et de permettre aux régulateurs, aux chercheurs,
00:33:47de regarder comment cela marche.
00:33:49Sur l'open source, un point important, l'open source a été en danger de manière très importante aux Etats-Unis.
00:33:58Il y a de moins en moins d'acteurs qui prônent l'open source dans cette technologie.
00:34:03Donc il nous semble essentiel que l'Europe, poussée par la France,
00:34:07puisse continuer à promouvoir le modèle open source en IA.
00:34:10La diversité linguistique et culturelle est fondamentale chez Mistral.
00:34:14Le premier modèle qui a été déployé par Mistral, le 7B, en septembre 2023,
00:34:21a été le premier modèle à être entraîné nativement sur d'autres langues que l'anglais américain.
00:34:26Le 7B a été entraîné sur du français, sur de l'allemand, sur de l'italien et sur de l'espagnol.
00:34:31C'est fondamental, c'est une nécessité d'abord pour créer la confiance avec les utilisateurs,
00:34:37pour créer de l'adoption, mais aussi pour la survie de notre diversité et de notre patrimoine.
00:34:43Cette diversité n'est pas un luxe, c'est une nécessité pour éviter une uniformisation des savoirs et des expressions,
00:34:50et on pourra y revenir plus tard.
00:34:52Et enfin, un point très important dans la manière dont on approche les choses,
00:34:56nous sommes avant tout une entreprise qui fait du B2B,
00:34:59c'est-à-dire qui vend ses solutions à des entreprises et aux services publics.
00:35:06Et nous avons effectivement une solution qui s'appelle Le Chat,
00:35:09qui est un démonstrateur qui permet de montrer à tout le monde le pouvoir de cette technologie.
00:35:13Mais avant tout, nous servons les entreprises et les services publics.
00:35:17Aujourd'hui, nous avons déployé plus de 25 modèles de toutes tailles,
00:35:20notamment des très petits modèles qui sont capables d'être déployés sur des appareils
00:35:24et d'opérer sans connexion Internet.
00:35:26Ce qui est un vrai avantage quand on pense à des solutions embarquées.
00:35:29On a un partenariat excellentiste, notamment dans l'automobile, mais aussi dans la défense.
00:35:33Et on a tout un tas de modèles, des modèles de col, des modèles de mathématiques,
00:35:38et puis des modèles spécialisés en langue.
00:35:41Mistral Saba, par exemple, qui est le meilleur modèle en arabe qui existe.
00:35:45En plus des modèles, on a des outils d'orchestration et de déploiement.
00:35:49Et on a également lancé récemment Mistral Compute,
00:35:52qui est donc un service d'infrastructure de puissance de calcul,
00:35:55spécialisé dans l'IA, décarboné,
00:35:58et qui est destiné à notre entraînement de nos modèles dans un premier temps
00:36:03et ensuite à des services commerciaux auprès des entreprises qui en auront besoin.
00:36:06Cette infrastructure, elle est située pour l'instant à Bruyère-le-Châtel dans l'Essonne.
00:36:10On a plusieurs autres sites qui sont en cours de finalisation
00:36:15et on compte déployer d'autres types d'infrastructures en Europe.
00:36:18C'est essentiel, ce sont des investissements significatifs,
00:36:22mais quand on parle d'indépendance, il est aussi essentiel pour nous
00:36:25d'organiser notre intégrance sur l'ensemble de la chaîne de valeur.
00:36:29Je voudrais vous livrer quelques réflexions initiales sur la manière
00:36:32dont l'intelligence artificielle transforme notre éducation et notre culture,
00:36:35et puis après peut-être démarrer l'échange.
00:36:37La première réflexion, c'est le fait que l'IA, effectivement,
00:36:41on le sait tous, représente une chance d'accès facilité à la connaissance,
00:36:45à condition qu'on s'engage à ne pas creuser les écarts entre les apprenants.
00:36:49On le sait, il y a déjà des écarts importants dans l'accès au numérique,
00:36:54et ces écarts peuvent se creuser davantage avec l'intelligence artificielle,
00:36:58et la langue est fondamentale dans cette question de réduire les écarts.
00:37:04Il est donc essentiel, pour préserver la diversité linguistique de ces modèles d'IA,
00:37:10de pouvoir faire en sorte que les modèles intègrent toutes les langues et tous les contextes.
00:37:15Sinon, on risque de marginaliser des pans entiers de notre patrimoine.
00:37:19Donc la première chose qui est centrale, c'est effectivement que ces modèles
00:37:23puissent voir le maximum de choses diverses et variées dans le maximum de langues,
00:37:28pour être capable ensuite de produire des contenus dans la langue,
00:37:31et pas juste la langue, mais aussi dans le contexte.
00:37:34Ensuite, l'IA interroge la nature même de l'apprentissage.
00:37:37Moi, j'ai assisté à un échange entre mon CEO d'Arthur Mensch et des journalistes.
00:37:41Le journaliste demande à Arthur Mensch, j'ai un enfant qui doit avoir une dizaine d'années,
00:37:46est-ce que je peux lui mettre l'IA entre les mains pour faire ses devoirs ?
00:37:49La réponse d'Arthur Mensch, qui est un chercheur, a été très claire.
00:37:53La réponse est non. Le cerveau a besoin d'apprendre et de se muscler.
00:37:58Donc l'IA est un outil et l'IA doit rester un outil.
00:38:02Il ne doit pas se substituer au regard critique sur ses productions.
00:38:06Les modèles sont probabilistes, ils ne sont pas factuels.
00:38:09Il faut rappeler en permanence comment fonctionne l'IA.
00:38:12L'IA prédit le mot suivant, point.
00:38:17Ils sont de plus en plus avancés, ils sont de plus en plus évolués,
00:38:20ils arrivent à avoir des analyses de plus en plus fines.
00:38:23Pour autant, cela reste des modèles mathématiques probabilistes.
00:38:26Et donc, il est important de pouvoir enseigner ce regard critique
00:38:33et de pouvoir continuer à faire vivre les deux, l'apprentissage qu'elle qu'on a connu
00:38:38et l'apprentissage de ces outils pour aider à la factualité.
00:38:43On a des partenariats comme celui avec l'AFP ou avec Associated Press,
00:38:46qui permettent de remettre de la factualité.
00:38:48Mais ça, ça doit se faire avec des partenaires légitimes comme l'AFP et l'AB.
00:38:53Et enfin, l'IA est un formidable outil au service de la production d'offres culturelles.
00:38:58Vous avez, je crois, auditionné le collectif Obvious,
00:39:00qui, avec la Sorbonne Nouvelle, utilise nos modèles pour créer cette formidable nouvelle pièce inspirée de Molière.
00:39:08Mais soyons très clairs, l'IA ne remplace pas l'essence même de la production artistique.
00:39:12L'IA ne produit pas d'émotion, il n'y a pas d'intention, il n'y a pas de singularité.
00:39:16Le rôle est d'augmenter, d'inspirer, de faciliter,
00:39:19mais pas de se substituer à la sensibilité de l'artiste.
00:39:22Elle pose donc de nouveaux défis de transformation du monde du travail,
00:39:26notamment pour certaines professions artistiques, on le sait.
00:39:29Je pense notamment aux doubleurs, je pense aux illustrateurs,
00:39:33qui, avec cette nouvelle technologie, voient des transformations,
00:39:36notamment de leur métier alimentaire, et je ne mets pas de termes péjoratifs derrière.
00:39:41Les transformations sont déjà à l'œuvre, donc il va falloir collectivement réfléchir à comment on les adresse,
00:39:47et notamment par la formation.
00:39:49Mais cette révolution technologique appelle aussi à la vigilance de ne pas voir une standardisation des productions de contenu,
00:39:56ou une marginalisation des cultures dites minoritaires.
00:40:00Et donc, je reviens à l'importance de former ces modèles sur des corpus les plus variés possibles pour permettre ce point.
00:40:08Vous m'avez interrogé sur les universités et notre partenariat avec les universités.
00:40:12Nous avons effectivement un partenariat avec une trentaine aujourd'hui d'universités,
00:40:17qui s'avaient démarré avec l'université de Rennes, qui était extrêmement pionnière dans ce domaine.
00:40:22Ce partenariat vise évidemment à mettre nos produits à disposition du corps enseignant et des étudiants,
00:40:28mais ça va au-delà. Et c'est ce qui nous a intéressés dans ce partenariat.
00:40:31C'est qu'en fait, ce partenariat, il est basé autour de ce qu'on appelle une infrastructure de RAG.
00:40:36Donc concrètement, on crée un contexte sur une base de données qui appartient à l'université pour permettre,
00:40:41en fait, à chaque fois qu'il y a une demande, qu'elle soit nourrie par un contexte spécifique.
00:40:46Et donc, il était vraiment quelque chose spécialement préparé et fait pour les établissements d'assignements supérieurs.
00:40:53Ensuite, ce partenariat, il s'inscrivait autour d'une charte de référence pour encadrer les usages.
00:41:00Et ça, ça a été aussi un point très important dans la réflexion.
00:41:02Comment nous, on pouvait aider le corps enseignant et académique pour bâtir cette charge de référence.
00:41:10Et puis enfin, il y avait un élément du partenariat.
00:41:14C'est un cadre méthodologique d'évaluation d'efficacité des IA dans les apprentissages.
00:41:18Donc, c'est aussi, on met notre technologie à disposition des enseignants et des étudiants.
00:41:23Et puis, on va mesurer, on va regarder quels sont les bons outils pour mesurer si ça marche, si ça ne marche pas,
00:41:28quels sont les biais qui peuvent intervenir.
00:41:29Et c'est l'ensemble de ces facteurs qui étaient intéressants pour nous.
00:41:32C'était de se dire, ce n'est pas juste une mise à disposition de nos solutions.
00:41:35C'est un vrai partenariat qui nous permet de faire avancer l'utilisation de l'IA dans l'enseignement.
00:41:41Le deuxième point, c'était sur les langues. Je l'ai évoqué dans mon propos.
00:41:46Le rapport aux langues, il est fondamental parce que les langues, ce ne sont pas que des mots, c'est de la culture.
00:41:53Et il est essentiel que les modèles qui, donc, produisent du contenu,
00:41:58et ces contenus vont très vite devenir la majorité des contenus qui sont disponibles sur Internet,
00:42:04puissent refléter l'ensemble des diversités. Il y a des enjeux de pouvoir, il y a des enjeux géopolitiques qui sont extrêmement importants sur ce sujet.
00:42:11Et donc, il est essentiel qu'on puisse, pas juste les langues, mais la diversité des accès linguistiques.
00:42:18On échange, on a des partenariats avec le Québec. Le français québécois n'est pas le français qu'on parle ici.
00:42:26Il y a énormément de subtilités dans les enjeux de langue. Et donc, il est fondamental pour nous qu'on puisse enrichir nos modèles du maximum de langues et de contenus possibles.
00:42:40Ce qui m'amène très vite à aller à la question de l'accès au contenu et de l'accès aux données.
00:42:48On le sait, je ne vais surprendre personne. Nous avons en Europe un cadre qui est le moins permissif sur la question de l'accès au contenu d'entraînement des modèles.
00:43:00Nous vivons, nous, Mistral, une situation de compétition extrêmement intense avec des concurrents qui sont tous américains et chinois.
00:43:11Et j'insiste sur le fait qu'effectivement, il n'y a plus d'autres entreprises qui fassent des modèles frontières en Europe. Et ces acteurs évoluent dans des contextes de régulation qui sont beaucoup plus permissifs.
00:43:24Le cadre américain était déjà permissif et le président des États-Unis a eu des propos assez forts sur le fait qu'il devait être extrêmement permissif pour l'entraînement des modèles.
00:43:34Et le cadre chinois ne connaît pas le droit d'auteur. Et il ne faut pas être naïf sur le fait que les Chinois entraînent sur tous les contenus bien au-delà des frontières chinoises.
00:43:47Partant de là, effectivement, il y a un enjeu à pouvoir trouver un mécanisme qui permette à la fois, évidemment, de respecter les intérêts des ayants de droit,
00:44:01de leur permettre de continuer à produire de la création culturelle, et en même temps à nous permettre de pouvoir développer des solutions indépendantes européennes.
00:44:09C'est ça, pour nous, qui se joue. C'est comment on arrive à trouver un équilibre qui nous permette de continuer à avoir des modèles qui soient compétitifs,
00:44:20qui soient représentatifs du maximum d'une diversité culturelle, dans un cadre qui est plus contraint.
00:44:29La concertation à laquelle on a participé à l'ensemble des séances a, pour moi, été, à minima, une vraie opportunité d'échanger et de connaître les enjeux des ayants droit.
00:44:43C'est poursuivi de nombreuses discussions bilatérales. Et rien qu'à ce titre, cette concertation a été extrêmement positive, en tout cas pour moi.
00:44:50Évidemment, il y a des points évidents de désaccord, puisque nos intérêts immédiats peuvent diverger.
00:44:58Pour autant, je suis assez convaincu que nos intérêts de long terme convergent, puisque nous avons tous intérêt à voir les cultures européennes et françaises subsister dans la l'ère de l'IA.
00:45:09Je m'arrête là pour mon propos indéduitif, et je vous remercie.
00:45:14Très bien, merci Madame. Vous pouvez éteindre votre micro, s'il vous plaît. Voilà, je passe la parole à Madame le rapporteur.
00:45:20Merci Monsieur le Président. Merci beaucoup d'être avec nous, et merci pour vos propos introductifs, qui ont déjà répondu à beaucoup de nos interrogations.
00:45:29J'aimerais revenir sur l'utilisation et la sélection des données d'entraînement.
00:45:35On a, et vous l'avez rappelé, Internet comme étant un champ sur lequel nous pouvons aller chercher des données, des contenus, parfois ce sont des heures.
00:45:44Mais j'aimerais que vous puissiez éclairer le travail, quelle est la sélection que l'on peut faire quand on scrute ou scrolle ou différents contenus.
00:45:57Est-ce qu'on garde tout ? Est-ce que vous pouvez nous expliquer et revenir sur la façon dont on a à explorer et peut-être à sélectionner les contenus que l'on va vraiment utiliser pour l'entraînement des modèles ?
00:46:10Oui, alors il y a plusieurs points pour répondre à cette question. D'abord, je voudrais insister sur... Vous comprendrez que je ne pourrais pas répondre en détail à cette question.
00:46:21Parce qu'évidemment, quand on est une entreprise comme Mistral, avec des moyens financiers qui sont très importants, mais qui sont significativement moindres que nos concurrents,
00:46:32si l'on a réussi très rapidement à placer des modèles dans le top des meilleurs modèles au monde, avec donc moins de puissance de calcul,
00:46:41c'est qu'on a une manière d'organiser la donnée qui nous permette de construire des modèles. Et donc c'est vraiment notre recette magique, c'est notre secret.
00:46:51Et donc je ne pourrais évidemment pas donner trop de détails. Pour autant, je pense qu'il y a plusieurs choses qu'il faut avoir en tête quand on pense à la constitution du...
00:47:03Ce qu'on appelle le dataset, donc des données. D'abord, c'est la volumétrie. C'est-à-dire qu'effectivement, les modèles, ils compressent la connaissance
00:47:14et donc ils ont besoin d'avoir accès à toute la connaissance. Et ils ont besoin d'avoir accès à des corpus qui sont à la fois des corpus extrêmement sérieux,
00:47:25donc des livres d'école, par exemple, serait quelque chose qui serait très idéal. Et en même temps, ils ont besoin d'avoir accès à du vocabulaire de tous les jours
00:47:37parce que quand il va y avoir une question qui est posée par les gens, c'est une question qui va être formulée dans un vocabulaire de tous les jours.
00:47:44Donc il va devoir le comprendre. Ce qu'il faut avoir en tête aussi, c'est que la manière dont fonctionnent les modèles, les modèles, ils vont...
00:47:55C'est un peu comme si vous rentrez dans une bibliothèque, vous lisez une dizaine de livres, vous ne connaissez pas mot à mot ce qui s'est dit dans le livre
00:48:02et trois semaines plus tard, lors d'une discussion, vous allez vous rappeler d'un concept. Est-ce que vous allez être capable de l'attribuer à un livre ?
00:48:09Parfois oui, parfois non, en fonction du nombre de fois où vous l'avez vu. Ça fonctionne un peu de cette manière-là.
00:48:14C'est-à-dire que ça ne mémorise pas l'ensemble des choses, sauf à les avoir vues de manière très, très, très, très fréquente.
00:48:21Et ça, ça n'a pas grand intérêt de les voir de manière très, très fréquente. Donc nos équipes, elles vont essayer de sélectionner le maximum de données
00:48:28dans des langues très variées. Et donc ça, c'est un point qui est très important pour nous. C'est effectivement de se dire comment on va s'assurer
00:48:36qu'il y ait des pourcentages de langues suffisamment représentatifs, tout type de langage. Et puis après, quand on va vouloir faire
00:48:44des modèles plus spécialisés en mathématiques, évidemment, on va surpondérer les mathématiques. Quand on va vouloir avoir un modèle
00:48:51qui sera meilleur dans un certain domaine, on va le surpondérer. Et puis aussi derrière, on va trier au sens où on va éviter la déduplication.
00:48:59La déduplication, ce serait se dire, vous avez des choses qui reviennent tout le temps sur Internet,
00:49:06qui sont présentes en surabondance. Si le modèle, il les voit trop, ça va déformer son rapport aux choses.
00:49:13Et donc cela, en fait, c'est effectivement des masques qui permettent de retirer des choses qui auraient été présentes
00:49:20à de trop nombreuses reprises. Et donc ça, ça permet effectivement de nettoyer une partie du dataset.
00:49:29Il y a plein d'autres choses sur lesquelles on va nettoyer le dataset. Je pense notamment au contenu d'exploitation sexuelle
00:49:36des enfants. Ça, c'est un point qui est évidemment extrêmement fondamental grâce à des algorithmes.
00:49:41Et puis, on va pouvoir aussi, par ce processus, mettre en œuvre l'optage lorsqu'on a effectivement une qualification fine
00:49:52des contenus qui ont fait l'optage d'optage. Et on sait tous aujourd'hui qu'il y a beaucoup de difficultés techniques
00:49:59à le mettre en œuvre. Je ne sais pas si j'ai répondu à l'entièreté de votre question, madame la rapporteure.
00:50:05On a compris que vous ne pouviez pas non plus donner la recette totale de ce que développe votre entreprise
00:50:13au risque de livrer aux concurrents vos atouts. Mais pour autant, vous êtes intervenu en citant l'opt-out.
00:50:22Donc effectivement, on a beaucoup et on a eu l'occasion au sein de la Commission des affaires européennes
00:50:28d'interroger ce qui peut être compatible ou incompatible entre, d'un côté, la directive droit d'auteur
00:50:35qui autorisait par son article 4 le droit de fouiller les données et les textes.
00:50:42Et puis, de l'autre côté, le règlement sur l'intelligence artificielle, première réglementation en la faveur
00:50:48et qui invitait et exigeait qu'on puisse respecter le droit d'auteur.
00:50:53Aujourd'hui, l'exercice du droit de retrait n'est pas satisfaisant puisque, d'un côté, difficile pour les ayants droit
00:51:00de pouvoir l'exprimer et pas facile non plus pour ceux qui développent les modèles d'IA d'en prendre connaissance.
00:51:08Alors bien sûr, on est sur les premiers mois d'application de ce que le règlement d'IA peut avoir.
00:51:14Mais parallèlement, vous avez aussi une émotion légitime des acteurs de la culture qui disent
00:51:22« On a pillé tous nos contenus. On les a utilisés. Nous n'avons pas été soumis à une demande d'autorisation
00:51:29ou à un droit à rémunération. » Et donc, vous avez, d'un côté, des essais de négociation.
00:51:38Alors, vous avez d'ailleurs conclu des accords avec l'AFP ou l'AP pour pouvoir disposer des contenus,
00:51:44qui sont ceux des contenus d'information. Mais de l'autre côté, vous avez pu aussi avoir le dépôt d'une proposition de loi
00:51:50des sénateurs qui, en droit français, veulent inverser la charge de la preuve en assumant une présomption d'utilisation
00:52:00par les fournisseurs de modèles d'IA des contenus soumis aux droits d'auteur.
00:52:07Alors, qu'est-ce que cela pose comme question pour vous ? Comment appréciez-vous la mise en œuvre du règlement IA
00:52:16sur la question du respect du droit d'auteur ? Quelle est votre interprétation de l'article 4 de la directive de 2019
00:52:23sur le droit d'auteur à l'ère numérique ? Et que pensez-vous de la proposition de loi des sénateurs sur la présomption d'utilisation ?
00:52:32Qu'est-ce que ça pose pour vous en termes de contraintes de développement ?
00:52:39Peut-être d'incertitudes aussi de développement ? Et comment ça a eu une conséquence sur la place de ce modèle
00:52:46à l'ambition européenne qu'est Mistral AI par rapport à ses concurrents ?
00:52:53Sur la mise en œuvre du RIA, il y a plusieurs points. On a été extrêmement... Mistral, on a été très actifs dans les discussions
00:53:06sur le code de pratique. Ce sont des discussions qui ont été très longues, très complexes.
00:53:11Je dirais qu'il y a une... Malheureusement, le vert était dans le fruit dès la rédaction du texte.
00:53:18C'est-à-dire qu'on a un texte qui... Enfin, résumé, suffisamment détaillé, qui, par essence, était compliqué à appliquer
00:53:29et qui ne satisfait ni les ayants droit, ni les développeurs d'IA. Et effectivement, on en voit aujourd'hui très concrètement
00:53:37la difficulté à le mettre en œuvre. Maintenant qu'on est passé dans cette phase de conformité,
00:53:45c'est effectivement un texte qui est compliqué à mettre en œuvre, qui est compliqué à mettre en œuvre,
00:53:50et notamment sur comment on fait en sorte d'avoir à la fois cette capacité à innover et à respecter le droit d'auteur,
00:54:03à fournir des éléments tout en respectant le secret des affaires. On se trouve dans une situation qui est effectivement
00:54:09très complexe et qui est donc insatisfaisante pour tout le monde. Et c'est regrettable.
00:54:14Sur la question de l'opt-out, un mécanisme technique qui permettrait d'arriver à apporter de la sécurité juridique
00:54:26à tout le monde serait un monde idéal, mais pour autant diminuerait la part de contenu européen
00:54:35dans les données d'entraînement. Donc Mistral a toujours dit que Mistral était assez ouvert à discuter
00:54:42des accords de licence pour des contenus qui viendraient améliorer la qualité des modèles.
00:54:49Il y a des discussions qui sont entamées, c'est des discussions qui sont évidemment complexes,
00:54:54parce que c'est un champ nouveau, que la question du prix n'est pas tout à fait encore claire et définie,
00:55:01parce qu'on a besoin aussi de connaître les catalogues des ayants droit, parce qu'il faut que tout le monde s'organise,
00:55:08ça prend un peu de temps. Moi, j'ai confiance dans le fait qu'on arrivera à monter des choses
00:55:13et à conclure des accords, parce que c'est dans l'intérêt de tous que ces contenus soient représentés dans le cadre des IA.
00:55:24Sur la question de l'article 4, pour autant, juste un petit point sur l'effectivité de l'opt-out,
00:55:32il ne faut pas négliger cependant le fait que sur Internet, on retrouve en permanence des répliques de contenus
00:55:39qui sont des contenus protégés. C'est-à-dire que si un ayant droit a mis un opt-out sur son site,
00:55:48le crawler va être bloqué et il ne pourra pas prendre le site.
00:55:50Pour autant, si des gens ont repris ces contenus, les ont repostés sur leur blog à eux,
00:55:56et bien en fait, ces contenus, ils seront priés. Et j'ai un exemple qui est intéressant.
00:56:01Quand vous tapez dans un moteur de recherche bien connu, Harry Potter chapitre 1,
00:56:08en deuxième occurrence de réponse, vous trouvez le site d'une académie que je ne mentionnerai pas,
00:56:16parce qu'évidemment, il ne faut pas les blâmer, avec une professeure des écoles qui écrit
00:56:22« Pour les étourdis qui n'auraient pas leur livre Harry Potter à l'école des sorciers,
00:56:25voici une version PDF, forcément les numéros de page, blablabla. »
00:56:29Je ne vous cacherai pas que c'est, entre guillemets, légèrement une infraction au droit d'auteur,
00:56:33donc je ne laisserai pas ce document en ligne longtemps, c'était en 2020.
00:56:36Et vous avez donc le PDF.
00:56:39C'est, je pense, très... On parle du Covid, et évidemment, les enseignants ont fait ce qu'ils ont pu,
00:56:44mais donc ça vous montre bien que ces contenus qui sont protégés, ils sont partout,
00:56:48et ils sont partout sans outils techniques pour les bloquer.
00:56:52Et donc c'est là où il y a une vraie difficulté,
00:56:54ce qui est qu'on parle de milliards de milliards de mots,
00:56:57comment on retrouve ces contenus sans qu'ils soient identifiés mot à mot dans les corpus,
00:57:02c'est extrêmement complexe.
00:57:04Sur l'application de l'article 4 de la directive de 2019,
00:57:08Chez Mistral, nous pensons très clairement que l'exception TDM est un système qui nous permet, nous, d'entraîner,
00:57:22donc il nous semble indispensable de le préserver,
00:57:25et que le système de l'OTAT, qui évidemment n'est pas un système idéal,
00:57:29et qui connaît beaucoup de difficultés de mise en œuvre pratique,
00:57:34permet de répondre, cependant, aux demandes des ayants droit.
00:57:39Donc il nous semble un système qui n'est pas si mal.
00:57:42En revanche, encore une fois, nous nous appelons à le regarder à l'aune du contexte international,
00:57:47et à l'aune de l'écart qui se creuse avec nos concurrents américains et chinois sur ces questions,
00:57:54et qui nous mènent, nous, dans une difficulté extrêmement complexe d'un point de vue international.
00:58:01Enfin, sur la proposition de loi sénatoriale qui vise à mettre en œuvre la présomption d'usage,
00:58:07on a eu des propos assez critiques à l'égard de cette proposition de loi.
00:58:12On en comprend évidemment l'intention.
00:58:16En revanche, on alerte sur plusieurs points.
00:58:18La première, c'est que nous avons en Europe un acteur qui produit de l'intelligence artificielle générative,
00:58:25qui est un acteur français.
00:58:28On pense qu'il est essentiel pour l'avenir de l'Europe d'avoir et de produire cette technologie.
00:58:34D'abord, on regrette quand même que cette proposition de loi vienne taper le seul acteur qui essaye
00:58:41de créer cette technologie en Europe.
00:58:44Et ensuite, la plus grosse difficulté pour nous de cette présomption d'usage,
00:58:50c'est qu'elle crée une preuve impossible, c'est-à-dire qu'on sera dans une situation
00:58:55qui va encourager le contentieux.
00:58:57Cette proposition de loi, c'est une prime au contentieux.
00:59:00Quand vous êtes une start-up ou une scale-up maintenant, comme Mistral,
00:59:04vous avez des besoins de financement.
00:59:07Si nous avons des contentieux, il faut le dire très clairement,
00:59:09nous aurons du mal à relever des fonds.
00:59:11Et donc ça, c'est un point qui est extrêmement complexe,
00:59:14c'est-à-dire qu'on va se retrouver dans des contentieux,
00:59:17avec une charge de la preuve qui sera impossible.
00:59:20Et en plus, on va être bloqué dans notre capacité à lever des fonds et d'expansion.
00:59:25On entend et on a des discussions avec de nombreux ayants droit,
00:59:28donc on sait qu'il faut trouver un mécanisme qui soit sans doute meilleur que le mécanisme actuel.
00:59:35Pour autant, cette proposition de présomption d'usage nous semble extrêmement dangereuse,
00:59:39en tout cas pour l'avenir de notre entreprise.
00:59:41Merci beaucoup.
00:59:44Vous avez passé des accords avec l'AFP ou l'AP,
00:59:49et aujourd'hui, ce n'est pas le cas pour d'autres corpus,
00:59:53où est-ce que vous pouvez nous faire part d'accords
00:59:55qui concernent non pas uniquement de l'information fraîche,
00:59:59mais également d'autres types de contenus.
01:00:03Je pense notamment à ce qui peut être dans le projet commun numérique.
01:00:08Est-ce que vous pourriez nous dire ce qu'il en est ?
01:00:12Alors, effectivement, dans le cadre du projet commun numérique,
01:00:16nous avions un projet qui a été retenu par France 2030,
01:00:20projet qui consiste à entraîner des modèles sur la base de contenus de la BNF et de l'INA,
01:00:29donc contenus libres de droits, j'insiste sur ce point.
01:00:32Donc, le projet est en cours.
01:00:35Il y a eu une phase assez longue sur la partie, effectivement, sélection de la donnée,
01:00:43et donc l'entraînement de ce modèle va pouvoir commencer.
01:00:47Le but étant, effectivement, de produire des modèles open source,
01:00:51qui seront des modèles qui seront extrêmement forts en langue française.
01:00:55Sur la question des licences, on est en discussion avec plusieurs acteurs.
01:01:01Je pense qu'il faut distinguer deux sujets.
01:01:04Le sujet de la licence qui permet de créer de la factualité,
01:01:09en tout cas de faire des choses qui sont des choses qui interviennent après l'entraînement des modèles.
01:01:14C'est le cas sur nos partenariats avec l'AFP et avec AP.
01:01:19Et c'est un modèle qui est, je pense, plus intéressant quand on réfléchit au partage de la valeur
01:01:24et à la question de la rémunération des ayants de droit,
01:01:27parce que c'est un modèle où on arrive à faire de l'attribution.
01:01:31Quand on est dans le cadre de l'entraînement, donc en phase amont,
01:01:36c'est impossible d'attribuer quel contenu a été appelé pour pouvoir former une réponse.
01:01:45Et donc, c'est là aussi où on a toutes ces questions un peu difficiles à résoudre
01:01:50sur comment on détermine la valeur.
01:01:51Alors que quand vous êtes après l'entraînement, vous avez la capacité, en fait, de mesurer à quel moment
01:02:01et sur quel type de réponse le modèle va aller chercher dans ce qu'on appelle le RAG.
01:02:06Et donc, c'est aussi beaucoup plus simple en termes de calcul de la valeur
01:02:11et de rémunération des ayants de droit.
01:02:13Donc, il y a beaucoup de choses à aller regarder du côté, effectivement, du post-entraînement sur ce sujet.
01:02:20Et puis, l'autre point que je n'ai pas mentionné, c'est aussi que dans la manière dont on travaille avec nos partenaires,
01:02:25on a cette offre aussi de co-training.
01:02:29Donc, on va, dans nos différents partenariats commerciaux, avoir la possibilité d'entraîner des modèles pour nos clients
01:02:38avec de l'IP, de la propriété intellectuelle partagée, co-partagée.
01:02:47Et donc, ça, c'est assez intéressant.
01:02:49On l'a fait avec le gouvernement de Singapour.
01:02:50C'est quelque chose qui est très intéressant quand on travaille avec les gouvernements
01:02:53parce que le préalable à mettre en place des systèmes d'intelligence artificielle
01:02:58à destination du service public ou des citoyens même.
01:03:01C'est d'abord que les modèles soient très forts dans la langue de ces citoyens.
01:03:05Et donc, l'étape préalable, c'est effectivement de se dire comment on fait un co-entraînement
01:03:10pour avoir des modèles qui soient très bons
01:03:11et puis ensuite qui vont pouvoir soutenir tous les développements d'applications.
01:03:15Donc, on le fait avec les gouvernements et on le fait aussi avec certains cas d'usage industriels.
01:03:22Notamment, on a un partenariat commercial avec ASML qui est sur des cas d'usage très complexes.
01:03:29Et donc là, il y avait un besoin, effectivement, de développer des modèles qui soient très très forts dans leur technicité.
01:03:36Et on le fait, évidemment, sur des infrastructures extrêmement protégées pour garantir la sécurité des données.
01:03:41Vous venez de parler de la langue.
01:03:47Vous aviez auparavant rappelé qu'il était important que les différentes langues soient là.
01:03:54Sinon, c'est un risque de marginalisation de pan entier de la culture.
01:03:58Est-ce que vous avez des acteurs qui sont venus vous voir parce qu'ils craignent, justement,
01:04:02de n'être pas assez présents sur ce qui peut être visité sur Internet ?
01:04:08Est-ce que vous avez des acteurs, que ce soit des pays ou des représentants de différentes langues,
01:04:12qui sont venus vous voir pour, justement, être sûrs d'être présents demain sur les agents conversationnels, par exemple ?
01:04:20C'est effectivement une préoccupation de certains États qui se trouvent dans des situations de conflit liées à un pan qui est lié à, effectivement, la question linguistique.
01:04:34C'est un sujet avec les Ukrainiens.
01:04:40Nous avons des discussions qui ne sont pas abouties, mais nous avons des discussions avec les Ukrainiens.
01:04:45C'est un sujet pour Taïwan.
01:04:48Donc c'est un sujet, aujourd'hui, géopolitique majeur.
01:04:52Et il y a de plus en plus d'organisations qui commencent à se préoccuper de cette question-là
01:05:00et donc à essayer de construire des corpus de données pour permettre, effectivement,
01:05:07à ce que ces langues qui ont un impact géopolitique majeur puissent survivre dans le cadre de l'IA.
01:05:15Il y a un rapport de l'INESCO qui est très intéressant sur la proportion des langues dans le cadre d'Internet.
01:05:22Je vais vous donner un chiffre qui ne sera sans doute pas exact, qu'on pourra aller le fact-checker après.
01:05:28Mais il me semble qu'on est autour de 70% d'anglais américains présents sur Internet
01:05:33et que le français doit être autour de 7%, peut-être moins.
01:05:38Donc il faut bien se rendre compte de cette surdomination linguistique
01:05:45qui, aujourd'hui, va s'ajouter à une domination capitalistique, à une domination politique.
01:05:53Le plan américain de développement de l'IA s'appelait plan pour la domination américaine en IA.
01:06:01Et donc il y a un enjeu extrêmement fort à créer une alternative qui permettra, effectivement,
01:06:10d'apporter cette diversité linguistique et puis d'avoir une autonomie stratégique dans ce domaine
01:06:16qui, encore une fois, a un impact sur l'ensemble des pans de notre société.
01:06:20Merci beaucoup. Je propose qu'on reste dans les langues, mais qu'on bascule un petit peu en disant
01:06:25« Aujourd'hui, on a des outils d'intelligence artificielle générative qui permettent de sous-titrer directement,
01:06:31de pouvoir traduire. Et on se dit, à quoi bon apprendre des langues ? »
01:06:38En contrepoint, on pourrait se dire dans quelle mesure les outils d'IA nous aident à apprendre des langues,
01:06:44à mieux les maîtriser, mieux les partager.
01:06:47Il y a une espèce de paradoxe et j'aimerais bien vous entendre sur le sujet.
01:06:51Encore une fois, c'est comme toutes les formes d'outils. D'abord, nous, on est convaincus que ça doit rester des outils
01:07:00au service des gens, ce qui n'est pas la doctrine la plus répandue dans les développeurs d'IA,
01:07:07mais c'est un point important. C'est un outil qui doit aider à l'apprentissage.
01:07:13Et donc, effectivement, il y a tout un tas d'applications qui peuvent être construites sur l'IA.
01:07:18Il faut avoir en tête que, quand on parle d'IA, l'assistant conversationnel, c'est un tout petit bout
01:07:24de ce que peut être l'usage de l'IA. L'IA dans les applications, il y a des fonctionnalités extraordinaires,
01:07:30des applications qui peuvent se construire pour aider à l'apprentissage pour les enfants.
01:07:35Vraiment, encore une fois, il ne faut pas du tout réduire l'IA à l'assistant conversationnel.
01:07:40Donc, les outils qui peuvent permettre d'aider à l'apprentissage des langues,
01:07:44notamment dans la capacité à réagir à un dialogue, à faire converser.
01:07:47Il y a une des plus, à mon avis, et c'est un avis personnel,
01:07:51mais un des plus grands problèmes de l'apprentissage des langues, c'est le manque de pratique orale.
01:07:57Pour ma part, j'ai appris l'allemand pendant l'avant, je suis incapable de converser en allemand.
01:08:01Donc, c'est comment on fait en sorte de développer cette pratique orale.
01:08:04grâce à l'IA, vous allez pouvoir avoir cette capacité à converser dans la langue,
01:08:10à avoir l'intelligence artificielle qui va vous rectifier, qui va vous corriger.
01:08:15Donc, ça, ce sont des choses qui sont extrêmement positives.
01:08:19Et donc, il faut à la fois se dire comment on l'encourage,
01:08:23et en même temps, comment on y met un regard critique.
01:08:27Et ça, je pense que c'est un point très important sur cette technologie,
01:08:31comment on regarde l'outil, en s'assurant que l'outil fournisse la bonne réponse et le bon élément,
01:08:38et comment on ne prend pas la réponse comme un fait.
01:08:44Parce qu'encore une fois, je trouve qu'on n'explique pas encore assez la manière dont ça fonctionne.
01:08:49Et encore une fois, c'est une réponse probabiliste,
01:08:52qui est de plus en plus avancée.
01:08:54Mais pour autant, il faut qu'on ait un meilleur regard sur cette technologie,
01:09:00et qu'on soit capable, peut-être par des plans d'éducation larges,
01:09:05d'expliquer comment ça fonctionne,
01:09:07et de se dire, voilà ce qu'on peut en attendre,
01:09:08et voilà aussi ce qu'on peut ne pas en attendre.
01:09:11Moi, j'utilise l'IA tous les jours dans mon travail.
01:09:15Ça me permet d'aller plus vite.
01:09:16Ça me permet, effectivement, de m'assurer que j'ai écrit quelque chose rapidement,
01:09:20qu'il n'y ait pas de faute d'orthographe.
01:09:22Et puis, parfois, l'IA, et j'utilise l'IA Mistral,
01:09:26parfois, me fait des réponses qui ne sont pas les bonnes.
01:09:29Et donc, il faut être capable d'avoir ce regard critique par rapport à ces outils.
01:09:34L'autre point qui est très important,
01:09:38juste un point très important,
01:09:40quand on parle des assistants conversationnels,
01:09:44il faut qu'on ait aussi en tête le fait que ces assistants conversationnels
01:09:47sont en train de devenir le point d'entrée dans la formation.
01:09:50Aujourd'hui, vous avez un oligopole d'acteurs américains
01:09:55dans le monde des assistants conversationnels.
01:09:58Ces assistants conversationnels, ils sont organisés pour créer de l'empathie
01:10:02avec les gens qui les utilisent.
01:10:04Donc, vous voyez bien aussi à quel point ces questions-là peuvent créer des vulnérabilités,
01:10:12voire des dangers en termes d'influence des gens,
01:10:15à la fois commerciale et aussi potentiellement politique ou de relais d'idées.
01:10:19Donc, il faut absolument, à mon sens, qu'on puisse se mobiliser rapidement
01:10:26pour améliorer l'éducation à l'usage de ces technologies,
01:10:30former les citoyens, comme il y a eu à l'époque des réseaux sociaux de grandes campagnes
01:10:34qui étaient des campagnes d'explications de comment ça fonctionne.
01:10:39Il faut qu'on puisse expliquer mieux cette technologie qui est complexe
01:10:43et comment on l'utilise de la bonne manière
01:10:46et puis comment on a un regard un peu plus critique par moment
01:10:49sur la manière dont ça fonctionne.
01:10:51Merci. Sur l'éducation, vous avez pris l'exemple des campagnes
01:10:56qui informent sur l'utilisation des réseaux sociaux.
01:10:59Il y a eu une campagne en Finlande dès 2018
01:11:01dont l'objectif était de former 1% de la population aux enjeux de l'IA.
01:11:07Ça a été dépassé.
01:11:08Les modules Elements of AI ont été traduits,
01:11:11mis à disposition des 26 autres pays européens.
01:11:15Que pensez-vous de cette démarche d'acculturation à grande échelle ?
01:11:19Comment jugez-vous aujourd'hui la maturité,
01:11:22l'éveil de la population française par rapport aux enjeux
01:11:25de la compréhension de l'IA et de l'utilisation de l'IA ?
01:11:29Et puis, comme vous avez bien pointé aussi le rôle de l'utilisation de l'IA
01:11:35parfois pour inonder de fausses informations
01:11:38l'ensemble de ce qui nous permet normalement d'accéder à l'information,
01:11:44je voudrais vous donner l'occasion de pouvoir nous dire
01:11:47dans quelle mesure l'IA n'est pas seulement une cause,
01:11:50mais peut-être une solution pour repérer les fausses informations
01:11:53et lutter pour meilleure information.
01:11:58On connaît les enjeux démocratiques afférents.
01:11:59Je vais avoir un peu de mal à parler de la question de l'utilisation,
01:12:05en tout cas de la diffusion dans la population,
01:12:07parce qu'encore une fois, comme notre activité est plutôt une activité B2B,
01:12:12l'usage du chat ne nous donne pas un regard suffisamment exhaustif sur les choses.
01:12:19Néanmoins, les différents rapports montrent quand même que l'Europe est globalement en retard
01:12:27sur une partie des usages, en tout cas dans le cadre des entreprises.
01:12:32Je ne suis pas sûre que ce soit le cas dans le cadre des citoyens.
01:12:37Donc effectivement, est-ce qu'il faut former ?
01:12:39Oui, il faut former, et quand on parle de formation,
01:12:42il faut former évidemment les populations à utiliser l'IA,
01:12:45mais il faut aussi qu'on ne perde pas un de nos atouts premiers en matière d'IA,
01:12:50qui est la formation des talents de l'IA.
01:12:52Et il faut rappeler que la France particulièrement
01:12:55est forme parmi les meilleurs chercheurs et ingénieurs en IA du monde,
01:13:01que beaucoup d'entre eux travaillent aux Etats-Unis.
01:13:03Donc il y a une première question, c'est comment on les fait revenir.
01:13:05Et la deuxième question, c'est comment on s'assure de continuer à former
01:13:09ces talents d'excellence en matière d'IA.
01:13:14Et je mettrai une toute petite parenthèse sur la formation des filles
01:13:18et l'accès des jeunes femmes aux filières scientifiques d'excellence,
01:13:22qui devraient être une priorité en matière de formation.
01:13:26Je referme la parenthèse.
01:13:28Et donc effectivement, sur l'accès de la population,
01:13:33c'est assez difficile pour moi d'en juger.
01:13:37En revanche, sur la question de l'utilisation des outils d'IA
01:13:40pour contrer, ou en tout cas détecter, les fausses nouvelles,
01:13:47et même au-delà de tous les usages d'amélioration,
01:13:50de la modération sur les réseaux sociaux par exemple,
01:13:52là il y a un potentiel qui est absolument fort,
01:13:55parce qu'effectivement ces outils nous permettent de détecter des patterns
01:14:01et donc de retrouver très vite et très facilement des types de contenus,
01:14:09d'analyser des typologies de langage de manière très fine,
01:14:13et donc effectivement de détecter.
01:14:15Ça permet aussi d'organiser du fact-checking,
01:14:20et quand on réfléchit et quand on discute avec l'AFP,
01:14:24mais on a aussi d'autres partenaires médias,
01:14:27évidemment la question de l'utilisation de l'IA pour améliorer le fact-checking,
01:14:31pour accéder aux archives des journalistes,
01:14:34c'est aussi un point extrêmement intéressant,
01:14:37de se dire comment très vite je vais pouvoir retrouver dans mes archives,
01:14:41ressourcer mes articles précédents et organiser les choses,
01:14:44comment effectivement l'outil peut faciliter le travail du journaliste,
01:14:50et encore une fois, sans le remplacer,
01:14:51de toute façon c'est un outil qui ne fait pas de factualité,
01:14:54ça c'est aussi des usages intéressants qui vont pouvoir
01:14:57non seulement détecter les fausses nouvelles,
01:14:59mais aussi aider les journalistes à aller plus vite
01:15:01dans leur travail de vérification des faits.
01:15:06Un petit rebond sur la question éducative,
01:15:08donc vous êtes parfaitement tout clair sur le fait que l'IA est un outil
01:15:12et ne saurait se substituer, notamment à l'enseignant,
01:15:19ni à l'enseignement.
01:15:21Vous vous rappelez que les réponses sont les mathématiques,
01:15:24c'est probabiliste, c'est pas la vérité vraie,
01:15:27si je puis dire, en tout cas, ça n'a pas ce statut.
01:15:31Et vous insistez aussi sur le fait que l'IA n'a pas d'intention,
01:15:35puisqu'il n'a pas de sentiments, je veux dire, il peut sembler en avoir,
01:15:40mais il n'en a pas, puisqu'il n'est pas humain.
01:15:43Donc tout cela sont des principes qui sont assez fondamentaux
01:15:46en matière d'utilisation de l'IA dans le domaine éducatif.
01:15:50Alors je voudrais vous poser des questions précises
01:15:51sur les relations administrales avec les institutions éducatives françaises.
01:15:56Avez-vous, avec le ministère de l'Éducation nationale,
01:15:59des relations à la fois, comment dirais-je, commerciales peut-être,
01:16:02ou en tout cas techniques, encadrez-vous ou lancez-vous
01:16:06des expérimentations locales ou des applications ?
01:16:10Aidez-vous, c'est peut-être pas votre métier,
01:16:12mais enfin bon, aidez-vous des entreprises
01:16:16à créer des applications pédagogiques ou administratives,
01:16:20parce qu'il y aurait probablement bien des progrès à faire
01:16:23grâce à l'IA en matière d'administration générale.
01:16:25Où en sommes-nous de cela, s'il vous plaît ?
01:16:27Alors, on a de nombreux partenariats avec les pouvoirs publics français.
01:16:35On a des discussions avec le ministère de l'Éducation nationale,
01:16:39qui ne sont pas encore des discussions qui ont donné lieu
01:16:41à la mise en œuvre de nos solutions.
01:16:45Il y a un point pour nous dans ces discussions,
01:16:49qui est qu'effectivement, on souhaite, côté Mistral en tout cas,
01:16:53qu'effectivement, notre technologie puisse être mise à disposition des élèves et des enseignants.
01:17:01Et il nous semble extrêmement important, surtout, de servir les enseignants,
01:17:04parce qu'aujourd'hui, les élèves, ils utilisent l'IA.
01:17:06C'est comment on fait en sorte que les enseignants aient accès aux mêmes outils.
01:17:10Et pour nous, il y a aussi un sujet, quand on pense à cette question,
01:17:15qui est le sujet de l'âge.
01:17:17Nous, on souhaiterait que nos dispositions soient mises à disposition des étudiants au lycée,
01:17:24des élèves au lycée, pour aussi avoir rapport à l'âge digital, l'âge numérique,
01:17:32et faire en sorte que ces pratiques soient bien encadrées.
01:17:35Et évidemment, en parallèle, que ce soit accompagné d'un travail avec le Clémy
01:17:41ou une autre institution, pour doter les élèves des clés d'utilisation.
01:17:45Donc tout ça est en cours de discussion avec le ministère de l'Éducation nationale.
01:17:51Nos solutions sont sans doute déjà utilisées.
01:17:55Comme on fait des modèles open source, tout le monde peut prendre nos modèles
01:17:58et créer des applications dessus, sauf qu'on ne le sait pas.
01:18:02Mais nos solutions sont, en tout cas, je l'espère, déjà utilisées
01:18:05dans un certain nombre de classes et par un certain nombre d'enseignants.
01:18:08Il y a des applications très intéressantes de l'IA dans l'enseignement,
01:18:10notamment sur la personnalisation des exercices,
01:18:12qui permettent effectivement aux professeurs de passer plus de temps avec les élèves
01:18:19et moins à essayer de personnaliser les exercices.
01:18:22Et donc, on a un certain nombre de partenariats avec les pouvoirs publics.
01:18:26On a annoncé récemment un grand partenariat à corps cadre avec l'AMIAD,
01:18:30donc dans le cadre du ministère de la Défense.
01:18:32On travaille avec France Travail, on travaille avec les douanes,
01:18:34on travaille avec la DG FIP.
01:18:36Donc, on a beaucoup de partenariats avec les pouvoirs publics français.
01:18:44Peut-être une dernière question, et je vais revenir un petit peu en arrière
01:18:47sur la question des droits d'auteur et de l'insatisfaction de plusieurs parties prenantes
01:18:51sur ce qu'est aujourd'hui la mise en application du RIA.
01:18:55On a, dans les travaux de la Commission des Affaires européennes,
01:19:01parlé de la mise en place d'un tiers de confiance,
01:19:03qui pourrait être l'interface entre, d'un côté, les développeurs d'IA
01:19:08qui confieraient et déclaraient, non pas un résumé suffisamment détaillé
01:19:12des contenus qu'il a utilisés, mais l'ensemble,
01:19:15soumis à un secret, pour respecter le secret des affaires,
01:19:18mais en transparence, donc pas de publicité, mais en transparence,
01:19:21et de l'autre côté, être à la disposition des ayants droit
01:19:24pour recolter leur droit de retrait ou, au contraire, pourquoi pas,
01:19:31aussi les déclarations de « je suis, j'autorise tous ces contenus
01:19:35à être travaillés et servir à l'entraînement ».
01:19:40Qu'est-ce que ça pose comme défi juridique, technologique, économique ?
01:19:46Qu'est-ce que ça apporte aussi en termes d'opportunités ?
01:19:49Est-ce que ça aiderait à pouvoir voir quelle est la valeur,
01:19:53et la valeur concertée, du point de vue des ayants droit,
01:19:57mais aussi de ceux qui l'utilisent, pour avoir le cadre d'une base
01:20:01pour pouvoir passer des licences, des négociations plus éclairées ?
01:20:06Je vous remercie de sous l'espoir, parce que c'est effectivement
01:20:10une solution que le ministère avait suggérée au moment des débats.
01:20:15Effectivement, le fait de pouvoir recourir à un tiers
01:20:19au sein de l'IA Office ou d'une autre entité
01:20:23nous semblait être un moyen de réunir un petit peu les deux mondes
01:20:30et surtout de traiter notre problème principal,
01:20:34qui est le problème du fait que le résumé est censé être public.
01:20:36Il nous a été opposé que le texte prévoit expressément
01:20:42le fait que ce résumé doit être public
01:20:46aux considérances en sept,
01:20:50et donc c'est pour ça que ça a été rejeté.
01:20:54Ce serait une solution qui nous semblerait effectivement
01:20:57une solution utile.
01:20:59Il me semble que ça nécessite aujourd'hui la réouverture du RIA,
01:21:07qui ne me semble pas être à l'agenda de la Commission européenne.
01:21:13Donc on le regrette évidemment.
01:21:15Est-ce que la mise en place d'un tiers de confiance,
01:21:23puisque effectivement le RIA demande un résumé suffisamment détaillé public,
01:21:27mais n'interdit pas forcément la création d'un tiers de confiance
01:21:30qui aurait la garde du secret,
01:21:33est-ce que pour vous il faut vraiment réouvrir le règlement
01:21:37ou ça peut être via un autre...
01:21:42Il y a deux points là-dessus.
01:21:45Le premier, c'est que la duplication des charges administratives de conformité
01:21:52est quelque chose d'un peu complexe à gérer
01:21:55pour une entreprise comme la nôtre.
01:21:57Donc pour moi, c'est du où.
01:22:01S'il faut que je fasse un résumé
01:22:03et en plus que je mette à disposition mon ADZ,
01:22:06ça commence à devenir une charge administrative un peu complexe.
01:22:11L'autre point, c'est la question
01:22:14de l'hébergement des données,
01:22:19parce qu'on parle de volumes qui sont extrêmement importants,
01:22:22où sont hébergées ces données,
01:22:25qui payent cet hébergement.
01:22:26comment on cherche dans ces données,
01:22:30comment on trouve dans ces données ?
01:22:32Je pense qu'il ne faut pas sous-estimer la complexité liée à la volumétrie.
01:22:41Et donc effectivement, les modalités pratiques,
01:22:43c'était notre suggestion.
01:22:45Donc on pense qu'effectivement, ce tiers de confiance peut constituer une solution,
01:22:53ou en tout cas, une manière de réunir les problématiques de chacun.
01:22:59En revanche, si on devait aller dans cette voie,
01:23:02les modalités concrètes et pratiques d'un tel système
01:23:06devraient donner lieu à un examen approfondi.
01:23:11Parce qu'encore une fois,
01:23:12on parle de volumétrie extrêmement importante.
01:23:14Très bien, nous arrivons au terme de nos échanges.
01:23:22Et nous sommes très honorés d'avoir pu rencontrer,
01:23:25je vous le dis sincèrement,
01:23:26et Mme Calphès est sûrement d'accord avec moi,
01:23:28d'avoir pu rencontrer un champion français et européen
01:23:30de l'intelligence artificielle générative.
01:23:33Parce qu'au fond, au fur et à mesure que nous avançons
01:23:35dans nos auditions, dans nos réflexions,
01:23:39nous voyons bien que le fil rouge de tout cela,
01:23:40c'est la question de la souveraineté numérique.
01:23:42C'est un enjeu, vous l'avez dit vous-même,
01:23:46géopolitique, stratégique, existentiel presque,
01:23:50pour nous, pour l'Europe.
01:23:53Et manifestement, Mistral est très engagé dans ce domaine-là.
01:23:57Vous défendez l'exception culturelle française,
01:23:59mais vous défendez bien au-delà de cela
01:24:01l'exception culturelle européenne,
01:24:02et même extra-européenne,
01:24:04puisque par exemple l'espagnol est davantage parlé
01:24:06finalement en Amérique qu'en Espagne,
01:24:08enfin à dire en termes de locuteur.
01:24:10Et donc, pour l'arabe aussi, par exemple,
01:24:13toutes les langues qui ne sont pas anglo-saxonnes,
01:24:15vous les mettez en avant,
01:24:16et je pense que vous faites oeuvre utile.
01:24:18Et vous nous avez également bien informés
01:24:21sur l'étendue de vos savoirs
01:24:23et de vos ambitions.
01:24:26En tout cas, de tout cela,
01:24:27nous vous remercions très sincèrement.
01:24:28Merci beaucoup.
01:24:29Merci.
01:24:30Merci.
01:24:31Merci.
01:24:32Merci.
01:24:33Merci.
01:25:03Merci.
01:25:33Merci.
01:25:34Merci.
01:25:35Merci.
01:25:36Merci.
01:25:37Merci.
01:25:38Merci.
01:25:39Merci.
01:25:40Merci.
01:26:10Merci.
01:26:11Merci.
01:26:12Merci.
01:26:13Merci.
01:26:14Merci.
01:26:15Merci.
01:26:16Merci.
Commentaires

Recommandations