Antoine Bosselut, professeur à l’Ecole polytechnique Fédérale de Lausanne et expert en IA détaille le développement d’un LLM européen ouvert, équilibré et responsable. Il insiste sur l’importance de la coopération entre la recherche publique et les entreprises pour développer l’IA en Europe. Selon lui, la France pourrait suivre l’exemple de la Suisse qui dispose déjà d’un système de coordination efficace.
00:00Antoine Bosslu, professeur assistant à l'école polytechnique fédérale de Lausanne et qui est
00:09membre également du comité de pilotage de Swiss AI Initiative qui porte le projet Apertus,
00:15eh bien à l'objectif de développer en Europe des LLM alternatifs ouverts au service du bien
00:21commun. Il est venu faire passer un message très clair au Tech Show Paris, nous avons pu lui tendre
00:27notre micro juste avant sa conférence. Antoine Bosslu, bonjour. Bonjour. Merci d'être avec nous,
00:34vous êtes professeur à l'école polytechnique fédérale de Lausanne, vous êtes également membre du comité de
00:39pilotage de Swiss AI Initiative qui a lancé un projet dont vous êtes co-responsable qui s'appelle
00:44Apertus et qui vise à développer des LLM pour le bien commun. Alors vous allez nous expliquer ce que ça
00:52veut dire pour le bien commun, ça veut dire répondre à certaines normes éthiques, peut-être environnementales,
00:58en quoi ça consiste, sur quoi vous vous appuyez très concrètement pour décider que ça va être pour
01:02le bien commun ? Bah ça dépend un peu de comment, qu'est-ce qu'on décide qui soit, ce qu'on met dans
01:08le LLM qui est différent par rapport à tous les autres. Et c'est quelque chose que nous on a réfléchi
01:12beaucoup, bien sûr quand on met plein de ressources pour ce développement, il faut bien savoir comment,
01:16quelle est la différence avec ce qu'il y a déjà. Et donc pour nous c'était vraiment cette question éthique,
01:20principalement de regarder ce qui manquait éthiquement dans ce qu'il y avait déjà. Et donc on a choisi un de
01:25faire un modèle complètement ouvert et transparent où tout le monde pourrait après auditer ce qu'on
01:31avait fait pour le développer. Donc un modèle open source ? Exactement, mais complètement open source,
01:35pas seulement open weight comme la plupart. On a aussi seulement utilisé des données publiques et on
01:40a respecté les droits d'auteur pour des gens qui disaient qu'ils ne voulaient pas que leurs données
01:43soient intégrées dans nos bases qu'on utilisait pour entraîner le modèle. Et finalement on a entraîné sur à peu près
01:492000 langues qui sont parlées partout dans le monde pour pouvoir réflecter tout le monde et
01:53pas seulement le monde western et souvent le monde qui parle anglais. Donc différence évidente,
01:58vous allez me dire, avec les grands modèles américains. Est-ce qu'il y a une différence avec
02:03ce qui se fait déjà en France, par exemple je pense à Mistral ou encore au laboratoire Qtai ? Oui,
02:09donc il y a des petites différences. Déjà Mistral c'est bien plus près de ce que nous on fait par
02:14rapport à des open AI et par rapport à des anthropiques. Par contre il reste des différences.
02:18Mistral, ils ne disent jamais sur quelles données ils ont entraîné. C'est souvent des données privées
02:24qui viennent d'entreprises, donc on ne peut pas nécessairement voir comment est-ce que les données
02:28qu'ils ont utilisées à la fin affectent le comportement du système. Nous, tout ça est complètement ouvert,
02:33on peut regarder exactement sur quoi ça a été entraîné. Ça peut être un outil de recherche,
02:37de science et non seulement pour les entreprises. Sur les modèles d'entraînement, est-ce que ce sont
02:43des LLM qui ont été spécialisés dans certains domaines ou secteurs ? Pour le moment, non. Pour le moment,
02:48ça a plutôt été entraîné sûrement sur des données de base de web qui sont bien sûr en pleine quantité,
02:54mais pas nécessairement de la meilleure qualité souvent. Mais malgré ça, on a quand même pu avoir
03:00des niveaux de performance qui en fait sont au niveau des meilleurs modèles ouverts d'aujourd'hui.
03:04Vous êtes venu ici au Tech Show Paris pour présenter ce projet. Qu'est-ce que vous avez eu envie de faire passer
03:11comme message, tout particulièrement ? Le message particulier que je veux passer, c'est que c'est vraiment
03:17une opportunité maintenant pour réfléchir à comment on veut développer les IA du futur. Bien sûr,
03:22ChatGPT a trois ans, ça nous a pris par surprise. On a pris trois ans pour essayer de se rattraper où on est.
03:27Maintenant, c'est vraiment le moment de réfléchir si on veut que l'IA de demain soit différente que celle qu'on
03:31est maintenant. Et pour ça, il faut prendre des décisions pour changer le développement,
03:34pour changer qui est représenté dans les IA, pour changer les données sur lesquelles on l'entraîne.
03:38Et comment en fait créer des environnements de collaboration pour créer ces IA très puissants ?
03:42Mais comment justement on fait pour créer vraiment une dynamique en Europe ? Parce qu'on entend beaucoup
03:46ce discours de dire que finalement, on a une carte à jouer sur la sécurité des IA, sur des modèles plus éthiques,
03:52sur l'open source. Mais il s'agit aussi d'animer une communauté, de la rendre vraiment active au point de créer un écosystème puissant.
03:59Exactement. Et ça, c'est exactement ce que je pense que les modèles ouverts peuvent faire. Bien sûr, on a des avantages en Europe, on a aussi.
04:07On n'a pas des compagnies de tech qui sont évaluées à des milliers de milliards. Et ça, bien sûr, ça veut dire que les gagnants des révolutions
04:15technologies précédentes sont les gagnants aujourd'hui aussi. Par contre, il y en a toujours qui peuvent venir, qui peuvent changer les dynamiques.
04:21Et ça, c'est à quoi on doit réfléchir ici en Europe. Et je pense que la communauté ouverte qui peut en fait prendre plein d'avances qui sont faits par beaucoup de gens.
04:29Et après, les additionner ensemble, c'est vraiment le modèle qu'il faut en Europe aujourd'hui pour continuer cette amélioration pour nous.
04:35On entend le public vous applaudir. Merci beaucoup.
04:37Moi, dans ce cas-là, merci beaucoup.
04:39Beaucoup d'initiatives aujourd'hui se retrouvent derrière cette idée de créer vraiment un écosystème très dynamique autour des LLM européens et ouverts.
04:48On suivra ça dans Smartech. Pour le moment, c'est l'heure d'ouvrir un autre débat, celui de l'alignement de l'IA.
04:54Faut-il mettre ce sujet à l'agenda de l'Europe ?
Écris le tout premier commentaire