Passer au playerPasser au contenu principal
  • il y a 7 semaines
Neil Zeghidour, directeur général de Gradium et cofondateur de Kyutai, était l'invité de Laure Closier dans French Tech, ce mardi 16 décembre. Il est revenu sur la création de produits d'intelligence artificielle vocale, qui sont en temps réel et qui permet d'avoir une interaction aussi naturelle qu'avec un humain, dans Good Morning Business. Retrouvez l'émission du lundi au vendredi et réécoutez la en podcast.

Catégorie

📺
TV
Transcription
00:008h22 sur BFM Business et sur RMC Live, c'est la première boîte de l'intelligence artificielle qui sort du laboratoire Qtai.
00:07Nelz Eguidour, bonjour, vous êtes le directeur général de Gradium, cofondateur de Qtai.
00:12On s'était vu au BFM Award, vous étiez avec tout le monde, tous les talents de l'intelligence artificielle sur scène.
00:18Votre spécialité c'est l'intelligence artificielle vocale, vous venez de lever 60 millions d'euros.
00:23Vous nous disiez, c'est une des plus grosses levées de fonds dans l'intelligence artificielle.
00:27Qu'est-ce que vous faites spécifiquement qui n'existait pas auparavant ?
00:32Donc nous, notre background en tant que fondateur de Gradium, c'est qu'on est les experts historiques de l'intelligence artificielle vocale.
00:39Donc on a inventé la plupart des technologies qui sont utilisées dans l'industrie par Google, OpenAI, etc.
00:43Et ce qu'on a décidé de créer avec Gradium, c'est des produits d'intelligence artificielle vocale qui sont en réel et qui permettent enfin d'avoir une interaction aussi naturelle qu'avec un humain.
00:52On se souvient tous du film Heur qui est sorti il y a environ 12 ans et qui donnait l'idée de ce à quoi ressemblera l'interaction avec les machines.
00:59Or, c'est une évidence pour tout le monde qu'on n'y est pas du tout.
01:01Et la raison pour laquelle on n'y est pas, c'est avant tout une frontière technique.
01:05Et donc cette frontière technique, il faut des gens experts du domaine pour la faire sauter.
01:09Et nous, c'est notre spécialité.
01:10Et donc ce qu'on veut permettre, c'est aux gens de parler…
01:12Faire Heur.
01:13Mais faire Heur, pour les gens qui veulent faire Heur, ou les gens qui veulent faire des personnages immersifs dans des jeux vidéo,
01:19ou les gens qui veulent réinventer le support client au téléphone, ou les gens qui veulent faire des podcasts personnalisés.
01:24Nos clients, c'est déjà tout ce champ d'application.
01:26En fait, c'est ça. Votre force, c'est le temps de latence qui est absolument minime.
01:29Moi, je me souviens que j'avais utilisé, essayé l'un des premiers modèles de Qtay, c'était Moshi.
01:33Je trouvais l'un des premiers produits.
01:34Et c'est vrai que c'était assez bluffant parce que si vous avez utilisé ChatGPT en mode vocal, ce qu'ont fait beaucoup de nos auditeurs, je pense,
01:41il y a toujours ce truc où vous posez la question et puis il y a quand même un temps d'attence avant la réponse.
01:45On n'a pas l'impression d'être en train de discuter avec un humain.
01:47Avec Moshi, c'était presque même frustrant parce qu'elle nous coupait la parole, elle comprenait la question avant qu'on ait fini de la poser.
01:53Mais c'est quoi du coup, j'allais dire, l'ingrédient secret et comment ça se fait que ce soit une petite entreprise française,
01:59je ne le dis pas de manière péjorative du tout, qui ait trouvé cette solution-là,
02:03là où on peut imaginer qu'un OpenAI ou qu'un Google ou qu'un Meta ait des moyens démesurés pour retrouver la…
02:08Je vous rappelle quand même que Qtai, c'est Eurasio, Xavier Niel, Eric Schmitt, Rodolphe Saadé, CMACGM, propriétaire de BFM Business,
02:15entre autres, il y a un écosystème derrière.
02:15Bien sûr, mais le budget R&D d'une entreprise comme Google, c'est des dizaines de milliards quand même.
02:19Donc voilà, j'imagine que vous n'avez pas non plus les mêmes moyens.
02:21Alors, c'est une question qui évidemment aussi est revenue pendant les discussions avec les investisseurs
02:25et qui, de manière générale, est assez importante actuellement.
02:30Ce qu'il faut savoir, c'est que les modèles de voix, les modèles d'intelligence artificielle vocale,
02:33sont beaucoup plus compactes et donc beaucoup plus frugaux à entraîner que les modèles de texte.
02:39Les IA textuels comme ChatGPT nécessitent d'avoir des dizaines de milliers de machines
02:43et donc il y a une barrière à l'entrée en termes de ressources,
02:46de ressources humaines et de ressources de calcul qui est absolument gigantesque.
02:50Les modèles vocaux sont beaucoup plus petits.
02:51Donc en réalité, ce qui permet…
02:53Est-ce que c'est compliqué la voix, les intonations ?
02:56C'est compliqué, mais en même temps, comme on a besoin que ces modèles tournent très vite
03:00et à très large échelle, de toute manière, on est contraint de développer des modèles
03:04qui sont beaucoup plus compacts.
03:05Et comme ils sont plus compacts, en réalité, le secret pour se distinguer de la concurrence,
03:11c'est une expertise profonde de l'oreille humaine, la parole,
03:15comment on modélise la conversation,
03:18plutôt que simplement la capacité à toujours passer à l'échelle
03:21nos ressources humaines et nos ressources de calcul.
03:23Donc, une toute petite équipe, quand on a fait Moshi,
03:27au début, on était quatre contributeurs techniques.
03:29On a inventé le premier modèle de conversation en temps réel
03:31des mois avant OpenAI et Google,
03:33qui ont littéralement mille fois plus de staff sur ce genre de sujet.
03:37Et donc là, vous parliez des cas d'usage.
03:39Alors ça, c'est hyper intéressant parce que derrière, il y a la notion de commercialisation.
03:41C'est aussi pour ça que vous avez pu créer cette entreprise.
03:43Donc, vous parliez des voicebots dans les centres d'appel.
03:46En fait, on va être appelé par son opérateur téléphonique.
03:49On ne saura même plus qu'on n'est pas en train de discuter avec un humain, en fait.
03:52Alors, vous le saurez parce que c'est typiquement annoncé au début de l'appel
03:56que vous êtes en train de discuter avec une IA.
03:58Ceci dit, ce qui est intéressant, c'est qu'on voit que même dans des cas d'usage
04:01qui sont très pragmatiques, comme prendre un rendez-vous au téléphone
04:03ou obtenir le statut sur un colis,
04:06c'est important pour les gens d'avoir une interaction qui soit naturelle,
04:09avec une voix qui paraît humaine, avec une faible latence, comme vous le disiez.
04:12Donc, en fait, casser cette barrière un peu étrange quand on interagit avec l'IA
04:17où nous, en tant qu'humains, on doit se discipliner parce que ce n'est pas assez précis,
04:20ça met du temps.
04:21Ça améliore la performance sur tous les cas d'usage.
04:23Les cas d'usage, ils vont du divertissement à l'apprentissage personnalisé,
04:27au support client et bien d'autres.
04:29Et vous avez déjà des premiers revenus ?
04:31Absolument.
04:31Alors, ça fait six semaines que vous êtes lancé.
04:33Alors, maintenant, ça fait trois mois.
04:34Au bout de six semaines, on a créé nos premiers revenus, en effet.
04:37Et donc, ce qui nous a permis d'avoir une trajectoire aussi véloce, disons,
04:41c'est le fait qu'on a mis notre expertise,
04:44et notamment celle qu'on avait aussi accumulée côté Qtai en recherche,
04:48pour maintenant exécuter des produits.
04:49Et on sent aussi que dans le marché de l'intelligence artificielle,
04:51il y a des gros questionnements aujourd'hui du fait qu'il y a eu beaucoup d'investissements
04:54et qui, parfois, ont mis du temps à se retranscrire en revenus.
04:57Nous, on est vraiment dans une démarche, maintenant, de faire des produits qui servent les gens.
05:01Et donc, qui servent les gens, c'est pour faire du contenu personnalisé,
05:05toutes les interactions au téléphone, des personnages dans les jeux vidéo,
05:09redonner la voix aux gens qui ont perdu leur voix.
05:10Donc, c'est vraiment un champ d'application majeur.
05:11Mais concrètement, aujourd'hui, je vous prends le cas d'usage qu'on a, nous, à BFM Business,
05:14une traduction de Friedrich Merz en direct, facilement,
05:18avec la même voix où il parle directement en français, c'est possible.
05:21Mais est-ce que ça va me coûter tellement cher que je ne vais pas prendre votre solution ?
05:24Est-ce que c'est possible, aujourd'hui, de déployer ça dans une rédaction ?
05:26Donc ça, c'est aussi un dépositionnement de Gradium,
05:29une des raisons d'aide de notre compagnie.
05:31Une des premières discussions qu'on a eues, qui nous a mis la puce à l'oreille,
05:34c'était une discussion avec un grand développeur de jeux vidéo
05:36qui voulait mettre des IA dans son jeu vidéo.
05:38Et dans son jeu vidéo, il y a 4 milliards d'heures qui sont jouées par mois.
05:40Donc, si vous voulez mettre de la voix là-dedans, il faut que ça coûte peu cher.
05:44Et de la même manière, la traduction,
05:46si on veut traduire du contenu qui est streamé vers 25 langues en direct,
05:49il faut que ce soit qualitatif en termes de qualité de la voix,
05:53il faut que ce soit en temps réel,
05:54et il faut que ça passe aussi à l'échelle.
05:56Et nous, on ne veut pas que les gens aient à choisir parmi ces trois aspects.
05:59On fournit la qualité, le temps réel et la capacité à faire ça à l'échelle.
06:03Vous, vous êtes un ancien de chez Meta et de chez Google, je crois.
06:06Les autres cofondateurs sont tous passés par tous ces grands groupes technologiques américains.
06:09C'est le cas aussi chez Mistral, d'ailleurs.
06:11C'est tous des anciens de ces big tech.
06:14Est-ce qu'il y a une notion de patriotisme économique ?
06:16C'est-à-dire l'idée que, voilà, face aux États-Unis, face à la Chine,
06:20la France a peut-être une carte à jouer.
06:21Je rends mon cerveau à l'Europe.
06:22Oui, exactement.
06:24C'est une très bonne formule.
06:24Je rends mon cerveau à l'Europe.
06:26Il y a un peu ça derrière ?
06:27Si vous voulez, ce qui est sûr pour Gradium,
06:29donc on a implanté à Paris, comme on avait implanté Kutai à Paris,
06:32c'est qu'au fond, la clé en intelligence officielle pour se démarquer, c'est le talent.
06:38Et le talent en France est absolument exceptionnel.
06:40Et donc, en fait, il y a un énorme avantage à être basé à Paris.
06:44Et en fait, on est très fiers et on est inspirés aussi par des boîtes comme Spotify,
06:48qui viennent des pays nordiques, qui ont un rayonnement international
06:50pour la qualité de leurs produits et pas spécifiquement parce qu'ils sont européens.
06:54Nous, on a déjà des clients aux Etats-Unis, en Europe.
06:57On s'intéresse aussi beaucoup à l'Asie et au Moyen-Orient.
07:00Notre ambition, c'est d'avoir un champion implanté localement en Europe,
07:05mais avec un rayonnement international.
07:06Et ce n'est pas l'argent, la clé ?
07:08Non.
07:08En fait, si vous voulez, l'intelligence officielle, c'est un domaine intéressant
07:13où les individus peuvent avoir un impact disproportionné.
07:16Et nous, dans la voie, on se rend compte qu'on a face à nous l'opportunité
07:19de devenir vraiment le champion mondial, y compris devant les big tech.
07:22Et si vous voulez, c'était impossible de ne pas saisir cette opportunité.
07:24Merci beaucoup d'être venu ce matin dans la matinale de l'économie.
07:27Neil Zeguidour pour Gradium, cofondateur de Qtad.
Commentaires

Recommandations