FRnOG 43 - Christophe Lesur : Deux mémoires pour des IA qui n'oublient plus - Vidéo Dailymotion

Vidéos des réunions FRnOG

FRnOG 43 - Christophe Lesur : Deux mémoires pour des IA qui n'oublient plus

Transcript

00:00Bonsoir à tous.

00:03On va parler, pour clôturer cette magnifique après-midi,

00:07un petit peu d'intelligence artificielle.

00:09On développe chez Cloud Temple un certain nombre d'outils

00:13autour des technologies d'IA et principalement de l'agentique.

00:17Je pense que tous dans la salle, vous vous êtes intéressés

00:20un petit peu à ces sujets de LLM

00:21et à la façon dont vous allez pouvoir en tirer bénéfices.

00:26Ils sont très très forts sur la plupart des sujets

00:29qui vous intéressent, que ce soit le scripting,

00:31que ce soit la maintenance en condition opérationnelle,

00:35la maintenance en condition de sécurité.

00:36Par contre, ils ont un défaut.

00:40Et le premier défaut qu'ils ont, c'est qu'ils sont statless.

00:43Alors ça vous parle à tous, puisque vous êtes des gens du réseau.

00:48Et c'est, je pense, pour ceux en tout cas qui ne se sont pas intéressés,

00:53la première chose à comprendre, c'est qu'il n'y a aucune forme de mémoire

00:56dans une IA.

00:57Toutes les notions de conversation que vous voyez

01:01sont faites par les frameworks et par les logiciels que vous utilisez,

01:04par l'application que vous avez sur votre téléphone,

01:06par l'application que vous avez web.

01:08Mais en lui-même, le LLM ne fait rien d'autre que de calculer un résultat.

01:14Et ça a un certain nombre d'avantages.

01:17C'est qu'on peut massivement paralléliser.

01:18C'est statless, donc on a tous les avantages du statless en termes de scalabilité.

01:24Par contre, il y a évidemment un gros inconvénient.

01:26C'est qu'on se retrouve rapidement avec une amnésie totale.

01:30Et je pense que vous l'avez tous vécu pour ceux qui l'ont utilisé.

01:32Vous avez des magnifiques sessions de travail sur un script ou sur un sujet

01:36qui se transforment assez rapidement par...

01:39Ils commencent à modifier des choses qui fonctionnaient très bien

01:41pour arriver à les casser et à vous faire rager assez rapidement.

01:47Et ce, quel que soit le modèle que vous utilisez,

01:50qu'il soit open source ou que ce soit des modèles dits frontières,

01:54type Anthropik, OpenEI ou Google.

01:59Ce point-là, c'est le sujet sur lequel nous, on travaille.

02:05Et c'est assez contraintivement un des plus gros sujets de recherche aujourd'hui.

02:09Quelle est la bonne façon de pouvoir mettre à disposition

02:12des systèmes qui permettent à des agents qui sont par définition statless

02:17de conserver de la donnée et de pouvoir capitaliser avec vous

02:21sans avoir le meilleur ingénieur réseau qui fait un reset total tous les matins ?

02:27C'est intéressant de se poser la question d'ailleurs comment nous, on fonctionne.

02:30On fonctionne un petit peu d'une façon très simple.

02:33On a la mémoire de travail qui sont les sujets sur lesquels vous êtes,

02:37que vous mobilisez quand vous êtes devant votre console,

02:39ou devant votre Mac.

02:41Et puis tout ce que vous avez appris, tout ce que vous sédimentez,

02:45qui est patiemment collecté la nuit pendant votre sommeil

02:48et qui se retrouve du coup dans le néocortex.

02:52Ça, la nature a résolu le problème il y a maintenant quelques millions d'années.

02:57Et les papiers de recherche sur ces sujets-là sont très récents.

03:01Nous, on a beaucoup travaillé sur un papier que je vous conseille en lecture,

03:04qui s'appelle Multi-agent de collaboration de mécanisme.

03:08Je vous ai mis le numéro d'archive.

03:10Et cette présentation-là est disponible en fait sur notre plateforme de pitch.

03:13Donc je vous repasserai l'URL à la fin, vous pourrez aller voir.

03:17Et qui décrit en fait comment on peut architecturer des mémoires,

03:20de façon notamment à avoir une propriété qui va vous intéresser demain,

03:24notamment dans les systèmes d'agentique.

03:26C'est-à-dire le fait d'avoir plusieurs agents ou plusieurs collaborateurs

03:29ou des agents et des collaborateurs qui travaillent ensemble

03:32sur un même sujet avec la même donnée et qui puissent en fait la modifier.

03:38Le premier...

03:38Alors, dans le monde de l'intelligence artificielle,

03:41il y a une norme qui est actuellement en production

03:45qui s'appelle les MCP.

03:46Vous en avez peut-être entendu parler.

03:48C'est ni plus ni moins une façon de proposer des API.

03:52Et donc chacun peut proposer son API à des LLM à disposition

03:58pour que ceux-ci puissent les utiliser.

04:00Nous, on a fait un premier MCP qui s'appelle Live Memory,

04:04qui traite la première partie en fait de la mémoire

04:07dont vous allez avoir besoin et dont vos LLM vont avoir besoin,

04:10qui est la mémoire de travail temps réel et partagée.

04:15Et puis un deuxième MCP qui s'appelle Graph Memory,

04:18dont on va parler tout à l'heure.

04:20Tous ces travaux-là, ce sont des travaux qui sont open source

04:24ou licence Apache 2.

04:25Donc n'hésitez pas pour ceux qui ont ces problématiques-là

04:28ou qui ont des équipes qui ont ces problématiques-là

04:30à les utiliser, à faire des issues.

04:33L'idée, c'est que la communauté puisse l'utiliser

04:36et qu'on puisse enrichir dessus.

04:39Alors le premier MCP s'appelle Live Memory.

04:42C'est la première étape.

04:43C'est sur quoi travaillons-nous à un instant T ?

04:46Donc pour ceux qui utilisent des outils comme Codex ou comme Cloud Code,

04:49ils ont la possibilité de coupler ce MCP-là

04:52et que des collaborateurs, des agents, des frameworks agentiques

04:57puissent intervenir sur une mémoire à un instant T

05:01de façon rapide et efficace,

05:03simplement en disant « bon, je suis en train de faire ci,

05:05je suis en train de faire ça, voilà ce sur quoi je travaille,

05:07voilà l'erreur que j'ai rencontrée,

05:08voilà le bootlog que j'ai vu ».

05:11Le MCP, il est prévu pour être efficace et être extrêmement rapide

05:16en termes d'architecture, pas de base de données,

05:20pas de trucs compliqués, c'est principalement du S3 qui est derrière.

05:24Et l'idée, c'est que, si je devais le résumer,

05:27c'est de voyer un grand tableau blanc sur lequel chacun viendrait poser des post-it

05:31sur le sujet sur lequel il est en train de travailler.

05:34et ça vous donne une interface qui ressemble à ça

05:36quand on visualise le fonctionnement du MCP derrière.

05:39Donc on voit chacun des agents qui écrit des notes

05:42et qui explicite ce qu'il est en train de faire,

05:46ce qui permet à un agent qui démarre

05:48ou à quelqu'un qui commence à travailler sur un sujet

05:50de voir instantanément sur le sujet qui est abordé

05:54qu'est-ce que les autres sont en train de faire.

05:57L'idée sous-jacente à ça,

05:59c'est qu'une fois que les notes sont dedans,

06:01on peut à un intervalle régulier les consolider.

06:05Ça veut dire simplement transformer tous les post-it

06:08que vous avez sur le tableau

06:10et faire une synthèse,

06:12et cette synthèse la stocker dans cette mémoire live memory

06:18de manière à, principalement,

06:20pour faire une forme de garbage collector

06:23avec un certain nombre de règles

06:24que vous définissez à la création de la mémoire.

06:27On fournit un certain nombre de règles sur,

06:29notamment, on travaille beaucoup dans le monde médical

06:31sur ces sujets-là autour des dossiers patients.

06:34On a quelques collaborateurs

06:36qui l'ont utilisé pour écrire des livres.

06:39On fait tous les processus d'avant-vente.

06:40Cloud Temple utilise ces mécaniques-là.

06:44Et donc, ça vous permet de structurer la mémoire

06:46et de, quand vous recommencez une session de travail,

06:49l'agent ou le LLM va directement sur la synthèse

06:53de ce qui a été fait précédemment

06:54et, en plus, a la possibilité de regarder les notes qui sont en cours

06:59et les travaux qui sont en cours.

07:04La deuxième partie de la mémoire,

07:08c'est la mémoire dite de long terme.

07:10Là, on est sur quelque chose qui est beaucoup plus long

07:12et pour ceux qui ont déjà eu l'occasion de se poser la question,

07:17quasi systématiquement,

07:18quand je commence à discuter avec un prospect

07:20ou avec un client

07:22sur ce qu'il voudrait faire avec les LLM,

07:24c'est-à-dire que je voudrais pouvoir faire des recherches

07:25dans mon gros pot de données qui est là,

07:27le pot de données étant souvent un SharePoint,

07:30et il imagine que ça va bien se passer.

07:33Et puis, pour ça, il a une bonne solution

07:34parce qu'il l'a lu sur Internet

07:35et ChatGPT lui a répondu,

07:36il va faire du rag.

07:39Le rag, pour vous simplifier,

07:41c'est en fait de la proximité sémantique.

07:44Donc, on transforme en fait une question

07:46ou un sujet en un vecteur

07:48et on calcule en fait un cosinus entre les deux.

07:52Plus la distance est éloignée,

07:54plus la question n'a rien à voir.

07:56Plus la distance est proche,

07:58plus en fait on parle de la même chose.

08:00Ça a un gros inconvénient

08:02qui fait qu'on ne peut pas utiliser

08:03ces technologies-là

08:05sur les gros corpus documentaires

08:06ou par exemple des gros fichiers de log

08:08ou par exemple des grosses configurations

08:11simplement parce qu'en fait ça lisse

08:12l'intégralité des documents

08:14et vous vous retrouvez en fait

08:15qu'avec un stockage de données

08:17qui est complètement plat,

08:18vous n'avez aucune forme de relief

08:20sur les documents.

08:21C'est-à-dire que vous ne pouvez pas avoir

08:22tel document précède tel autre document

08:25ou est plus important qu'eux,

08:26c'est des notions qui n'existent pas.

08:29L'idée en fait sous-jacente

08:30sur ces sujets-là

08:31dans le papier de recherche

08:32dont je vous ai parlé tout à l'heure,

08:34c'est d'utiliser quelque chose

08:36que les plus anciens d'entre vous

08:38qui ont au moins une quarantaine d'années

08:39ont connu fin des années 2000,

08:41qu'on a appelé le web sémantique.

08:43Est-ce que ça parle encore

08:44à quelques-uns d'entre vous ?

08:46Ça a été principalement un échec

08:49parce que en fait les technologies,

08:51l'idée était très bonne,

08:53d'ailleurs on l'utilise aujourd'hui massivement,

08:55par contre les technologies

08:56n'étaient pas prêtes

08:57et on voulait faire faire

08:58du web sémantique à des humains

09:00là où ce n'est pas fait pour.

09:02L'idée c'est de pouvoir,

09:04sur la base d'une ontologie

09:06que l'on définit sur un corpus,

09:10sortir les entités,

09:11les faits et les relations d'un document,

09:13quel que soit le type de document,

09:15donc on a des ontologies réseau,

09:16on a des ontologies clan,

09:18on a des ontologies sales,

09:20on a des ontologies médicales,

09:22et d'extirper les entités,

09:24les faits, les relations,

09:26de manière à pouvoir créer

09:27un graphe de la connaissance.

09:29Et on va venir,

09:30sur ce graphe de connaissances,

09:32câbler l'intégralité

09:34des documents du corpus documentaire,

09:38chaque nœud du graphe

09:39étant associé à des parties de documents.

09:42Ça a deux gros avantages.

09:44Le premier avantage que ça a,

09:46c'est que c'est entièrement programmatique.

09:49Donc le fait que ça soit entièrement programmatique,

09:51vous évitez tout phénomène

09:52d'hallucination d'une intelligence artificielle,

09:55où il va commencer à imaginer des choses

09:57qui n'ont rien à voir avec ce dont vous avez besoin.

09:59L'autre propriété,

10:02c'est que c'est extrêmement rapide en réponse,

10:05puisque c'est programmatique,

10:07et donc c'est très scalable.

10:09L'idée, c'est qu'il va y avoir

10:12un calcul sémantique au démarrage

10:14pour comprendre la question,

10:15un parcours de graphe derrière

10:17pour trouver les éléments de documents

10:18et les bons documents

10:20qui correspondent à la question,

10:21une grosse graphe JSON qui arrive à la fin,

10:23et le LLM n'aura qu'à crafter la réponse

10:27issue de la sortie structurée

10:29qui est donnée.

10:32Donc là, je vous ai mis

10:32une petite représentation graphique.

10:36C'est probablement,

10:39en tout cas,

10:39l'avenir du stockage de long terme

10:41pour les données.

10:42Ça a un inconvénient,

10:43c'est qu'il faut en moyenne

10:44entre 30 secondes et 1 minute par document

10:46pour pouvoir faire l'extraction sémantique

10:48à cet instant.

10:51Alors, du coup,

10:52j'ai anticipé un petit peu

10:53pourquoi on utilise un graphe.

10:54Le graphe classique,

10:56c'est anonyme, tout plat

10:57et extrêmement déceptif.

11:00Si vous essayez de faire du RAG,

11:01pour ceux qui s'intéressent à l'IA,

11:02vous verrez que ça va vous agacer

11:04assez vite.

11:06Et l'approche que l'on utilise aujourd'hui,

11:08ça s'appelle le Graf Guidi Drag

11:10et qui présente le meilleur des deux mondes.

11:13Alors, du coup,

11:16les deux outils se complètent bien.

11:18Vous avez Live Memory

11:19avec sa consolidation

11:20et qui est capable de pousser

11:22lui-même dans Graph Memory.

11:24sur les notes,

11:25on est en subseconde.

11:27En termes de consolidation,

11:29on est sur la dizaine de secondes.

11:31Donc, on est vraiment sur des choses

11:32qui sont extrêmement fluides

11:33et qui sont compatibles

11:34avec le temps réel.

11:35Pour ce qui est, par contre,

11:37de la capitalisation à long terme,

11:39on est vraiment sur de la matière

11:40de long terme.

11:41Et donc, là,

11:42on est sur des temps plus longs

11:43et principalement en traitement

11:44à sa crône la nuit.

11:46Et je vous ai mis un petit peu

11:48d'architecture technique.

11:49On est sur du Docker derrière

11:51et tout est packagé.

11:52Donc, vous avez un WAF.

11:53En l'occurrence,

11:54c'est du Corazza qui est derrière.

11:56Et vous avez les services MCP

11:58qui sont sous-jacents.

12:00Rien de très compliqué

12:01pour des gens comme vous

12:02quand ils vont vouloir mettre

12:04des mémoires de long terme

12:06pour leurs IA.

12:07Voilà, je vous ai mis

12:09les URL GitHub.

12:11J'espère que vous ou vos équipes,

12:13vous en aurez besoin

12:14et que vous les utiliserez.

12:16Je vous redonne aussi,

12:18si je peux,

12:20je peux comment je peux,

12:22l'URL de la présentation.

12:23Ça s'appelle

12:24en haut de mémoire.pitch.plot.tample.app

12:27et tous ceux qui veulent,

12:29en tout cas,

12:30participer avec nous

12:31aux recherches

12:32sur les frameworks agentiques

12:36au niveau France-européen,

12:38je serai ravi de discuter avec eux.

12:42Merci.

FRnOG 43 - Christophe Lesur : Deux mémoires pour des IA qui n'oublient plus

Catégorie

Transcription

Commentaires

Recommandations