Passer au playerPasser au contenu principal
  • il y a 2 jours
Neil Zeghidour, cofondateur de Kyutai et de Gradium, était l'invité de François Sorel dans Tech & Co, la quotidienne, ce jeudi 4 décembre. Il s'est penché sur la réinvention de l'IA vocale, les intérêts de cette progression, leur spécialité, la montée en popularité des assistants vocaux, ainsi que les objectifs de l'expérience d'interaction, sur BFM Business. Retrouvez l'émission du lundi au jeudi et réécoutez la en podcast.

Catégorie

📺
TV
Transcription
00:01Tech & Co, la quotidienne, l'invité.
00:04Voilà Tech & Co, la quotidienne, toujours ici à Station F à l'occasion de cet événement et iPulse.
00:09Et l'une des stars de cet événement est sur le plateau de Tech & Co.
00:13Mais on n'a que des stars ce soir.
00:15Neil Zegidourella, bonsoir Neil.
00:18Bonsoir.
00:18Vous êtes le cofondateur de Qtai et de Gradium.
00:21Alors Qtai, on connaît.
00:23On a eu l'occasion plusieurs fois d'interviewer Patrick Perez, qui est le patron de Qtai.
00:28Ce qui est intéressant, c'est que vous êtes là pour présenter Gradium, à la fois à l'assistance que vous avez pu avoir ce matin et à nous-mêmes.
00:37C'est intéressant parce qu'on est dans l'IA vocal.
00:40Et j'aimerais que vous nous expliquiez un petit peu le concept de Gradium et que vous vous projetiez un petit peu dans l'avenir pour nous dire à quoi ça pourrait servir.
00:50Présentez-nous Gradium, s'il vous plaît.
00:52Donc Gradium, c'est cette nouvelle startup qu'on a annoncée cette semaine.
00:56Une startup qui est dédiée à l'IA vocal.
00:58Et pas l'IA vocal pour une application spécifique, mais plutôt la technologie qui permet de développer des IA vocales.
01:05Et donc, qu'est-ce que ça signifie ?
01:07C'est qu'au fond, la manière dont on interagit avec l'intelligence artificielle aujourd'hui, ça se fait essentiellement via le texte.
01:16Et une des raisons pour laquelle les gens continuent d'utiliser leur clavier plutôt que d'utiliser la voix,
01:21c'est parce que la technologie vocale n'est pas encore assez développée.
01:25Mais au fond, si on pense à des applications comme l'apprentissage des langues étrangères,
01:31toute la clé et la difficulté, c'est l'expression orale.
01:33Si on prenait le support client, c'est des interactions qui sont essentiellement qui ont lieu au téléphone.
01:40L'interaction avec des personnages virtuels dans des jeux vidéo, la publicité, c'est du contenu vocal.
01:45Donc en fait, il y a dans toute l'économie, il y a de la voix.
01:50Et de plus en plus, il va y avoir de l'interaction.
01:55On le voit d'ailleurs, OpenAI pousse énormément de ChatGPT Voice, la version vocale de ChatGPT qui progresse.
02:01J'imagine que vous l'avez testé et c'est assez impressionnant.
02:06Ils sont sur la bonne voie, à votre avis, et Gradium est sur cette voie-là ou vous faites autre chose ?
02:10Alors justement, ce que vous mentionnez, si on compare à Gradium, quelle est la position de Gradium dans cet écosystème ?
02:16Une technologie comme celle que vous venez de mentionner, elle est plutôt de bonne qualité, mais la latence peut être améliorée.
02:25Ce n'est pas encore une interaction comme celle que vous auriez avec un humain.
02:28Ils font beaucoup de progrès, je ne veux pas vous contredire, mais OpenAI fait énormément de progrès avec ChatGPT Voice aujourd'hui.
02:35Absolument.
02:36Il n'y a quasiment plus de latence en fait.
02:38Mais en fait, si vous regardez, c'est que dans ce cas-là, ce qui va se passer, c'est que ça va être très difficile de faire passer ce genre de technologie à l'échelle.
02:45Parce que c'est destiné à être utilisé dans des cas très spécifiques, du fait qu'il y a peu d'utilisateurs qui en réalité lui parlent.
02:52C'est impossible aujourd'hui de se dire que vous allez faire du support client avec des millions de clients, avec ce genre de technologie.
02:57Ça ne passe pas du tout à l'échelle.
02:58Il faudrait beaucoup plus de puissance, c'est ça ?
03:02Ou des modèles qui puissent être plus compacts et plus efficaces sans transiger sur la qualité.
03:07Parce qu'en fait, aujourd'hui, soit vous utilisez des solutions qui passent à l'échelle, mais qui sont peu qualitatives.
03:11Ça va sonner un peu comme un répondeur téléphonique, si vous voulez.
03:13Soit vous prenez des modèles plus qualitatifs, mais ça ne passe pas du tout à l'échelle.
03:18Nous, justement, et ça c'est le positionnement fondamental de Gradium, c'est qu'on se met dans la situation où on n'a pas transiger sur la qualité pour pouvoir passer à l'échelle.
03:26Et ce qui nous permet de le faire, c'est que vous mentionnez ChatGPT Voice, mais tous les modèles de voix aujourd'hui,
03:32en réalité, se base sur des algorithmes qu'on a inventés à Qtai et avant dans nos carrières précédentes.
03:37Une expertise qu'on a accumulée sur plus de 10 ans de recherche et aujourd'hui qu'on met à profit des produits via Gradium.
03:44Parce que la raison d'être de Gradium, c'est quoi ?
03:46C'est que quand on a créé Qtai comme un laboratoire à but non lucratif, c'est toujours la mission de Qtai.
03:52Et c'était une mission sincère, notre mission de faire de la recherche ouverte,
03:56parce qu'on trouvait que c'était le meilleur contexte pour faire des transformations technologiques.
04:00Or, ce qu'on a observé, c'est que bien qu'on mette nos modèles en open source,
04:04il y avait beaucoup d'intérêt du marché pour faire des produits autour de nos modèles,
04:08mais ils n'arrivaient pas à se les approprier.
04:11Et au fond, nul n'est mieux placé que celui qui a inventé l'algorithme
04:15pour aussi faire le produit qui va venir de l'algorithme, si vous voulez.
04:19Donc nous, on vit une transition qui passe de la recherche ouverte long terme
04:22à faire des produits compétitifs, multilingues, qui ont une qualité studio,
04:26qui permettent de l'interaction rapide.
04:28Et là, ce qu'on a rendu public cette semaine, après seulement trois mois d'existence,
04:33ce n'est pas juste la levée de fonds de 60 millions d'euros.
04:37C'est un vrai produit qui permet de retranscrire en direct, de synthétiser en direct,
04:40de créer des agents vocaux à la demande.
04:43On a généré notre premier revenu en six semaines,
04:47alors qu'on est techniquement ce qu'on appelle une compagnie de modèles fondationnels,
04:51pardonnez-moi le terme, mais on entraîne nos propres modèles d'IA.
04:53C'est le record du monde.
04:55Normalement, c'est un an pour arriver à du revenu dans cette industrie
04:58quand on entraîne ses propres modèles.
05:00Et donc, en fait, notre avantage technologique, c'est un accélérateur.
05:05Mais là, aujourd'hui, on se pose comme challenger à toutes les technologies
05:08dans celles que vous avez mentionnées.
05:09Et en 2026, notre objectif, c'est d'être meilleur que toute solution commerciale au monde
05:17sur tous les aspects, la qualité, la latence, la fidélité des voix, la qualité de l'interaction.
05:26Vous êtes passé par Google.
05:28Vous avez travaillé quasiment cinq ans chez Google il y a quelques temps de cela.
05:32Juste un mot sur Gemini, parce qu'on voit aussi que ça progresse de manière fulgurante.
05:37Le Gemini 3 est assez impressionnant en termes de qualité et surtout dans son offre globale.
05:44Il est quasiment bon partout.
05:47Juste pour revenir sur la voix, est-ce que vous pensez que tous ces géants américains,
05:52que ce soit OpenAI ou Google, vont pousser aussi la voix comme vous le faites ?
05:57Est-ce que ça fait partie de leur stratégie ?
05:59Ça fait partie de la stratégie de tout le monde, parce que c'est devenu une évidence pour tout le monde
06:03que la voix, c'est le prochain mode d'interaction avec les ordinateurs.
06:09Oui, mais ce n'est pas idéal non plus.
06:10C'est-à-dire qu'on aura toujours envie d'écrire des choses.
06:15La voix ne va pas répondre à toutes les attentes qu'on peut avoir au quotidien.
06:20Ça dépend bien entendu du contexte.
06:22Si on prend par exemple la programmation, l'aide à la programmation,
06:25c'est naturellement, ça se fait par le texte.
06:27Mais si on reprend l'apprentissage des langues, le coaching, le support client,
06:33l'industrie du jeu vidéo, l'industrie créative, même la presse.
06:37Nous, côté Qtai, on avait eu une collaboration pour faire des revues de presse
06:41qui soient personnalisées avec une voix très journalistique, etc.
06:45La voix, c'est dans la priorité de toutes les boîtes IA, y compris les hyperscalers.
06:49Maintenant, ce qui est intéressant, c'est que la voix, contrairement,
06:52vous parliez des prouesses de Gemini 3.
06:54Ça vous impressionne ou pas de Gemini 3 ?
06:57Bien entendu, c'est impressionnant.
07:00On est très fiers de ce qu'ils font.
07:04Une grande différence entre la voix et l'intelligence,
07:08c'est que l'intelligence, maintenant, c'est une course au passage à l'échelle.
07:12Il faut toujours plus de ressources d'entraînement, des modèles toujours plus gros.
07:16La voix, si vous voulez qu'elle soit rapide et fidèle,
07:19la solution, ce n'est pas de faire un gros modèle, c'est de faire un petit modèle.
07:22Idéalement, il serait même embarqué dans votre téléphone.
07:25Mais en revanche, il faut qu'il soit très rapide, très qualitatif.
07:28Et donc, nous, c'est là qu'on a un avantage compétitif.
07:31C'est qu'au fond, quand vous parlez à un modèle de voix d'un hyperscaler,
07:36vous parlez au modèle principal.
07:38C'est-à-dire que vous demandez, je ne sais pas moi, une recette de pâte
07:41et vous parlez à un modèle qui peut résoudre des équations différentielles.
07:44Ça, c'est un peu absurde.
07:45En fait, la puissance est démesurée, ce n'est pas optimisé.
07:48Nous, on se spécialise sur des modèles qui sont faits pour faire la voix et uniquement la voix,
07:53ce qui les rend beaucoup plus petits.
07:54Donc, ils peuvent passer à l'échelle.
07:56Et nous, on est capable de supporter une échelle d'interactions.
07:59Une des premières interactions qui nous a poussé à créer Gradium,
08:01c'est un célèbre développeur de jeux vidéo mobile
08:03qui voulait créer des personnages virtuels avec lesquels on puisse converser
08:06et qu'il y a plusieurs milliards d'heures.
08:08J'ai bien dit milliards, pas millions.
08:10Milliard d'heures qui sont jouées par mois.
08:11Quand vous avez plusieurs milliards d'heures
08:12et qu'il faut mettre des IA vocales au milieu de tout ça,
08:16le passage à l'échelle, il est titanesque.
08:19Après, ça fait de la data monstrueuse qui va enrichir le personnage.
08:23Il y a ça aussi qui est génial.
08:25Absolument.
08:26Et dans les industries créatives, ce qu'on voit, c'est qu'il y a évidemment un peu d'inertie,
08:31mais tout le monde attend que quelqu'un se jette et après tout le monde va suivre.
08:37Et ça, c'est évident.
08:39On voit qu'il y a une espèce de bataille aussi sur les assistants vocaux.
08:43Alors Siri qui est un peu en retrait, Amazon qui va sortir son Alexa Plus.
08:50Il y a bien évidemment aussi, on le disait, GPT Voice.
08:53Est-ce que vous pensez que demain, nous aurons tous un compagnon comme Jarvis,
08:56en fait, un Jarvis qui gérera notre quotidien sur plein de choses.
09:02C'est quelque chose qui vous paraît être réaliste ?
09:06Non seulement réaliste, mais tout à fait plausible.
09:10Et justement, vous mentionnez le fait qu'il y a des gros progrès en voie.
09:15Quand on a rendu Moshi Public, c'était dans un monde où l'interaction vocale avec l'IA,
09:20c'était je pose une question élémentaire et j'atteins cinq secondes pour obtenir une réponse robotique.
09:25Nous, on est arrivé et on a fait passer ça, même pas qu'avec le modèle, mais avec l'invention derrière,
09:30au niveau d'une interaction qui ressemble de plus en plus à celle qu'on aurait avec un humain.
09:34Il reste du chemin à faire.
09:35Parfois, les modèles ne sont pas assez expressifs ou ils ont du mal à comprendre des environnements bruyants.
09:42Et donc, si vous voulez, il y a encore des défis techniques.
09:44Mais une fois qu'on les aura résolus et que l'IA sera fiable, précise et agréable,
09:51énormément d'interactions passeront naturellement par la voie.
09:53Alors, nous, notre hypothèse et ce qu'on voit vraiment quand on parle à nos clients,
09:57c'est que c'est la fragilité de la technologie qui réduit son adoption.
10:02Et en fait, c'est en rendant cette technologie facile et pratique qu'on va la démocratiser.
10:09Le problème aujourd'hui, c'est que les gens essayent une, deux fois.
10:11Et si ça ne marche pas au bout de deux fois, ils abandonnent parce qu'on a plus confiance en ses doigts
10:14quand on s'avoue quelque part aujourd'hui.
10:16Une fois qu'on aura inversé ça, ça va se démocratiser assez vite.
10:20Ça va mettre du temps, à votre avis ? Ce Jarvis-là, dont on rêve tous, va arriver quand ?
10:25Alors, il n'y a pas une semaine, je pense, sans qu'il y ait une start-up qui lève des fonds pour faire ça.
10:31C'est là aussi qu'on a vu notre opportunité.
10:33C'est plutôt bon signe.
10:33Ça veut dire que ça va s'accélérer et que la concurrence va être virtueuse.
10:37Et si vous voyez d'ailleurs, en fait, plus que de la concurrence, c'est plutôt des clients.
10:40Parce que si on regarde l'écosystème de la voie, la plupart des boîtes qui font des IA vocales
10:44sont spécialisés dans un produit, par exemple le support client ou l'IA pour la banque ou ce genre de choses,
10:51mais ne développent pas leur technologie.
10:52Des laboratoires qui développent leur propre technologie de voie, il y en a moins de cinq dans le monde
10:56et Gradium est un des plus compétitifs.
10:59Comment voyez-vous l'avenir aussi pour Gradium ?
11:01Vous aimeriez vendre votre technologie à des acteurs tiers mondiaux ?
11:08Demain, je ne sais pas, on voit qu'Apple galère avec son Siri.
11:12Est-ce que demain, vous pourriez être une brique d'un Siri ?
11:15Je prends un exemple d'Apple, mais ça pourrait être d'autres boîtes.
11:17C'est ça votre objectif aussi ?
11:18C'est exactement notre objectif.
11:20C'est de devenir la brique technologique qui permet, si vous voulez,
11:24de réaliser toutes les interactions entre humains et machines, mais aussi entre humains.
11:28Un exemple, parce que là, je ne vous parle pas de prospective, mais de clients qu'on a actuellement.
11:33On a du support client, de la prise de rendez-vous médical au téléphone,
11:36des personnages dans des jeux vidéo, mais aussi de l'interprétariat,
11:39c'est-à-dire être capable de traduire la voix en temps réel.
11:43Et donc, nous, on veut vraiment être le moteur technologique d'expériences, d'interactions,
11:50de divertissement, qui peuvent être pour le business, pour la traduction, pour toutes sortes de cas d'usage.
11:55Alors, vous n'y êtes pour rien, mais ça va être aussi un gros destructeur d'emploi, tout cela.
12:00Parce que tous les métiers qui sont liés à la voix, vous parliez de l'interprétariat,
12:03c'est un métier qui va être compliqué dans quelques temps.
12:07Les profs de langue aussi.
12:09Mais en même temps, ce qui est assez intéressant, c'est que si vous prenez l'exemple de l'interprétariat
12:14ou du professeur de langue, nous, ce à quoi on essaye de contribuer,
12:18c'est un traducteur qui vous accompagne dans vos vacances, dans votre poche,
12:22ou qui permet à chaque collégien, le soir à la maison, de s'améliorer en anglais.
12:26Il n'y a aucun humain qui occupe cet espace, à moins d'avoir les moyens d'avoir un prof particulier en anglais à la maison
12:32et quelqu'un qui nous accompagne dans nos voyages.
12:34Si vous voulez, nous, on vient rajouter de la voix et de la technologie là où elle est manquante.
12:41Ça ne vient pas remplacer, à votre avis, on va dire, les tâches humaines, c'est ça ?
12:45Il y a des contextes où ça va remplacer des tâches humaines, bien sûr, mais quand même,
12:51l'aspect de l'interaction et de la personnalisation, c'est que ça ne remplace rien,
12:56ça crée du contenu et des interactions qui sont impossibles aujourd'hui,
12:59à moins d'avoir autour de soi un aéropage d'un traducteur, d'un assistant, etc.
13:05Je suis journaliste, je présente une émission tous les soirs sur BFM Business.
13:08Est-ce que demain, Gradium pourrait m'imiter et réaliser cette interview à ma place ?
13:15Imiter votre voix, ça, sans aucun doute, mais être capable d'imiter la précision de vos questions,
13:22mener la conversation où vous allez, ça, c'est votre personnalité.
13:24Nous, ce n'est pas du tout ce qu'on cherche à faire.
13:27Nous, on vient mettre de la voix dans les interactions.
13:30En revanche, nous, des applications qui nous intéressent, c'est encore une fois,
13:34de créer des formes de contenu qui sont inenvisageables.
13:37Imaginez maintenant que les gens qui apprécient particulièrement votre émission
13:40puissent poser des questions, ils l'écoutent le soir et ils puissent poser des questions
13:44sur un sujet ou un autre et puissent interagir avec vous.
13:47Alors, à moins que vous soyez dans le salon de chacun, ça va être compliqué.
13:51Oui.
13:52Avertissez-moi avant, quoi.
13:54C'est tout, je peux m'organiser.
13:56Mais vous voyez ce que je veux dire, ça permet de créer aussi du bonus.
13:58Ça pourrait être du bonus et de l'enrichissement de l'émission.
14:00De l'approfondissement, tout à fait.
14:02Merci beaucoup.
14:03C'est passionnant, Nel Zeguido.
14:05Vous êtes le cofondateur de Qtai et de Gradium qu'on va suivre de près.
14:08Merci beaucoup.
14:09Merci à vous.
14:10Merci à vous.
14:10Merci.
14:11Merci.
14:12Merci.
Écris le tout premier commentaire
Ajoute ton commentaire

Recommandations