00:00Bonsoir à tous.
00:03On va parler, pour clôturer cette magnifique après-midi,
00:07un petit peu d'intelligence artificielle.
00:09On développe chez Cloud Temple un certain nombre d'outils
00:13autour des technologies d'IA et principalement de l'agentique.
00:17Je pense que tous dans la salle, vous vous êtes intéressés
00:20un petit peu à ces sujets de LLM
00:21et à la façon dont vous allez pouvoir en tirer bénéfices.
00:26Ils sont très très forts sur la plupart des sujets
00:29qui vous intéressent, que ce soit le scripting,
00:31que ce soit la maintenance en condition opérationnelle,
00:35la maintenance en condition de sécurité.
00:36Par contre, ils ont un défaut.
00:40Et le premier défaut qu'ils ont, c'est qu'ils sont statless.
00:43Alors ça vous parle à tous, puisque vous êtes des gens du réseau.
00:48Et c'est, je pense, pour ceux en tout cas qui ne se sont pas intéressés,
00:53la première chose à comprendre, c'est qu'il n'y a aucune forme de mémoire
00:56dans une IA.
00:57Toutes les notions de conversation que vous voyez
01:01sont faites par les frameworks et par les logiciels que vous utilisez,
01:04par l'application que vous avez sur votre téléphone,
01:06par l'application que vous avez web.
01:08Mais en lui-même, le LLM ne fait rien d'autre que de calculer un résultat.
01:14Et ça a un certain nombre d'avantages.
01:17C'est qu'on peut massivement paralléliser.
01:18C'est statless, donc on a tous les avantages du statless en termes de scalabilité.
01:24Par contre, il y a évidemment un gros inconvénient.
01:26C'est qu'on se retrouve rapidement avec une amnésie totale.
01:30Et je pense que vous l'avez tous vécu pour ceux qui l'ont utilisé.
01:32Vous avez des magnifiques sessions de travail sur un script ou sur un sujet
01:36qui se transforment assez rapidement par...
01:39Ils commencent à modifier des choses qui fonctionnaient très bien
01:41pour arriver à les casser et à vous faire rager assez rapidement.
01:47Et ce, quel que soit le modèle que vous utilisez,
01:50qu'il soit open source ou que ce soit des modèles dits frontières,
01:54type Anthropik, OpenEI ou Google.
01:59Ce point-là, c'est le sujet sur lequel nous, on travaille.
02:05Et c'est assez contraintivement un des plus gros sujets de recherche aujourd'hui.
02:09Quelle est la bonne façon de pouvoir mettre à disposition
02:12des systèmes qui permettent à des agents qui sont par définition statless
02:17de conserver de la donnée et de pouvoir capitaliser avec vous
02:21sans avoir le meilleur ingénieur réseau qui fait un reset total tous les matins ?
02:27C'est intéressant de se poser la question d'ailleurs comment nous, on fonctionne.
02:30On fonctionne un petit peu d'une façon très simple.
02:33On a la mémoire de travail qui sont les sujets sur lesquels vous êtes,
02:37que vous mobilisez quand vous êtes devant votre console,
02:39ou devant votre Mac.
02:41Et puis tout ce que vous avez appris, tout ce que vous sédimentez,
02:45qui est patiemment collecté la nuit pendant votre sommeil
02:48et qui se retrouve du coup dans le néocortex.
02:52Ça, la nature a résolu le problème il y a maintenant quelques millions d'années.
02:57Et les papiers de recherche sur ces sujets-là sont très récents.
03:01Nous, on a beaucoup travaillé sur un papier que je vous conseille en lecture,
03:04qui s'appelle Multi-agent de collaboration de mécanisme.
03:08Je vous ai mis le numéro d'archive.
03:10Et cette présentation-là est disponible en fait sur notre plateforme de pitch.
03:13Donc je vous repasserai l'URL à la fin, vous pourrez aller voir.
03:17Et qui décrit en fait comment on peut architecturer des mémoires,
03:20de façon notamment à avoir une propriété qui va vous intéresser demain,
03:24notamment dans les systèmes d'agentique.
03:26C'est-à-dire le fait d'avoir plusieurs agents ou plusieurs collaborateurs
03:29ou des agents et des collaborateurs qui travaillent ensemble
03:32sur un même sujet avec la même donnée et qui puissent en fait la modifier.
03:38Le premier...
03:38Alors, dans le monde de l'intelligence artificielle,
03:41il y a une norme qui est actuellement en production
03:45qui s'appelle les MCP.
03:46Vous en avez peut-être entendu parler.
03:48C'est ni plus ni moins une façon de proposer des API.
03:52Et donc chacun peut proposer son API à des LLM à disposition
03:58pour que ceux-ci puissent les utiliser.
04:00Nous, on a fait un premier MCP qui s'appelle Live Memory,
04:04qui traite la première partie en fait de la mémoire
04:07dont vous allez avoir besoin et dont vos LLM vont avoir besoin,
04:10qui est la mémoire de travail temps réel et partagée.
04:15Et puis un deuxième MCP qui s'appelle Graph Memory,
04:18dont on va parler tout à l'heure.
04:20Tous ces travaux-là, ce sont des travaux qui sont open source
04:24ou licence Apache 2.
04:25Donc n'hésitez pas pour ceux qui ont ces problématiques-là
04:28ou qui ont des équipes qui ont ces problématiques-là
04:30à les utiliser, à faire des issues.
04:33L'idée, c'est que la communauté puisse l'utiliser
04:36et qu'on puisse enrichir dessus.
04:39Alors le premier MCP s'appelle Live Memory.
04:42C'est la première étape.
04:43C'est sur quoi travaillons-nous à un instant T ?
04:46Donc pour ceux qui utilisent des outils comme Codex ou comme Cloud Code,
04:49ils ont la possibilité de coupler ce MCP-là
04:52et que des collaborateurs, des agents, des frameworks agentiques
04:57puissent intervenir sur une mémoire à un instant T
05:01de façon rapide et efficace,
05:03simplement en disant « bon, je suis en train de faire ci,
05:05je suis en train de faire ça, voilà ce sur quoi je travaille,
05:07voilà l'erreur que j'ai rencontrée,
05:08voilà le bootlog que j'ai vu ».
05:11Le MCP, il est prévu pour être efficace et être extrêmement rapide
05:16en termes d'architecture, pas de base de données,
05:20pas de trucs compliqués, c'est principalement du S3 qui est derrière.
05:24Et l'idée, c'est que, si je devais le résumer,
05:27c'est de voyer un grand tableau blanc sur lequel chacun viendrait poser des post-it
05:31sur le sujet sur lequel il est en train de travailler.
05:34et ça vous donne une interface qui ressemble à ça
05:36quand on visualise le fonctionnement du MCP derrière.
05:39Donc on voit chacun des agents qui écrit des notes
05:42et qui explicite ce qu'il est en train de faire,
05:46ce qui permet à un agent qui démarre
05:48ou à quelqu'un qui commence à travailler sur un sujet
05:50de voir instantanément sur le sujet qui est abordé
05:54qu'est-ce que les autres sont en train de faire.
05:57L'idée sous-jacente à ça,
05:59c'est qu'une fois que les notes sont dedans,
06:01on peut à un intervalle régulier les consolider.
06:05Ça veut dire simplement transformer tous les post-it
06:08que vous avez sur le tableau
06:10et faire une synthèse,
06:12et cette synthèse la stocker dans cette mémoire live memory
06:18de manière à, principalement,
06:20pour faire une forme de garbage collector
06:23avec un certain nombre de règles
06:24que vous définissez à la création de la mémoire.
06:27On fournit un certain nombre de règles sur,
06:29notamment, on travaille beaucoup dans le monde médical
06:31sur ces sujets-là autour des dossiers patients.
06:34On a quelques collaborateurs
06:36qui l'ont utilisé pour écrire des livres.
06:39On fait tous les processus d'avant-vente.
06:40Cloud Temple utilise ces mécaniques-là.
06:44Et donc, ça vous permet de structurer la mémoire
06:46et de, quand vous recommencez une session de travail,
06:49l'agent ou le LLM va directement sur la synthèse
06:53de ce qui a été fait précédemment
06:54et, en plus, a la possibilité de regarder les notes qui sont en cours
06:59et les travaux qui sont en cours.
07:04La deuxième partie de la mémoire,
07:08c'est la mémoire dite de long terme.
07:10Là, on est sur quelque chose qui est beaucoup plus long
07:12et pour ceux qui ont déjà eu l'occasion de se poser la question,
07:17quasi systématiquement,
07:18quand je commence à discuter avec un prospect
07:20ou avec un client
07:22sur ce qu'il voudrait faire avec les LLM,
07:24c'est-à-dire que je voudrais pouvoir faire des recherches
07:25dans mon gros pot de données qui est là,
07:27le pot de données étant souvent un SharePoint,
07:30et il imagine que ça va bien se passer.
07:33Et puis, pour ça, il a une bonne solution
07:34parce qu'il l'a lu sur Internet
07:35et ChatGPT lui a répondu,
07:36il va faire du rag.
07:39Le rag, pour vous simplifier,
07:41c'est en fait de la proximité sémantique.
07:44Donc, on transforme en fait une question
07:46ou un sujet en un vecteur
07:48et on calcule en fait un cosinus entre les deux.
07:52Plus la distance est éloignée,
07:54plus la question n'a rien à voir.
07:56Plus la distance est proche,
07:58plus en fait on parle de la même chose.
08:00Ça a un gros inconvénient
08:02qui fait qu'on ne peut pas utiliser
08:03ces technologies-là
08:05sur les gros corpus documentaires
08:06ou par exemple des gros fichiers de log
08:08ou par exemple des grosses configurations
08:11simplement parce qu'en fait ça lisse
08:12l'intégralité des documents
08:14et vous vous retrouvez en fait
08:15qu'avec un stockage de données
08:17qui est complètement plat,
08:18vous n'avez aucune forme de relief
08:20sur les documents.
08:21C'est-à-dire que vous ne pouvez pas avoir
08:22tel document précède tel autre document
08:25ou est plus important qu'eux,
08:26c'est des notions qui n'existent pas.
08:29L'idée en fait sous-jacente
08:30sur ces sujets-là
08:31dans le papier de recherche
08:32dont je vous ai parlé tout à l'heure,
08:34c'est d'utiliser quelque chose
08:36que les plus anciens d'entre vous
08:38qui ont au moins une quarantaine d'années
08:39ont connu fin des années 2000,
08:41qu'on a appelé le web sémantique.
08:43Est-ce que ça parle encore
08:44à quelques-uns d'entre vous ?
08:46Ça a été principalement un échec
08:49parce que en fait les technologies,
08:51l'idée était très bonne,
08:53d'ailleurs on l'utilise aujourd'hui massivement,
08:55par contre les technologies
08:56n'étaient pas prêtes
08:57et on voulait faire faire
08:58du web sémantique à des humains
09:00là où ce n'est pas fait pour.
09:02L'idée c'est de pouvoir,
09:04sur la base d'une ontologie
09:06que l'on définit sur un corpus,
09:10sortir les entités,
09:11les faits et les relations d'un document,
09:13quel que soit le type de document,
09:15donc on a des ontologies réseau,
09:16on a des ontologies clan,
09:18on a des ontologies sales,
09:20on a des ontologies médicales,
09:22et d'extirper les entités,
09:24les faits, les relations,
09:26de manière à pouvoir créer
09:27un graphe de la connaissance.
09:29Et on va venir,
09:30sur ce graphe de connaissances,
09:32câbler l'intégralité
09:34des documents du corpus documentaire,
09:38chaque nœud du graphe
09:39étant associé à des parties de documents.
09:42Ça a deux gros avantages.
09:44Le premier avantage que ça a,
09:46c'est que c'est entièrement programmatique.
09:49Donc le fait que ça soit entièrement programmatique,
09:51vous évitez tout phénomène
09:52d'hallucination d'une intelligence artificielle,
09:55où il va commencer à imaginer des choses
09:57qui n'ont rien à voir avec ce dont vous avez besoin.
09:59L'autre propriété,
10:02c'est que c'est extrêmement rapide en réponse,
10:05puisque c'est programmatique,
10:07et donc c'est très scalable.
10:09L'idée, c'est qu'il va y avoir
10:12un calcul sémantique au démarrage
10:14pour comprendre la question,
10:15un parcours de graphe derrière
10:17pour trouver les éléments de documents
10:18et les bons documents
10:20qui correspondent à la question,
10:21une grosse graphe JSON qui arrive à la fin,
10:23et le LLM n'aura qu'à crafter la réponse
10:27issue de la sortie structurée
10:29qui est donnée.
10:32Donc là, je vous ai mis
10:32une petite représentation graphique.
10:36C'est probablement,
10:39en tout cas,
10:39l'avenir du stockage de long terme
10:41pour les données.
10:42Ça a un inconvénient,
10:43c'est qu'il faut en moyenne
10:44entre 30 secondes et 1 minute par document
10:46pour pouvoir faire l'extraction sémantique
10:48à cet instant.
10:51Alors, du coup,
10:52j'ai anticipé un petit peu
10:53pourquoi on utilise un graphe.
10:54Le graphe classique,
10:56c'est anonyme, tout plat
10:57et extrêmement déceptif.
11:00Si vous essayez de faire du RAG,
11:01pour ceux qui s'intéressent à l'IA,
11:02vous verrez que ça va vous agacer
11:04assez vite.
11:06Et l'approche que l'on utilise aujourd'hui,
11:08ça s'appelle le Graf Guidi Drag
11:10et qui présente le meilleur des deux mondes.
11:13Alors, du coup,
11:16les deux outils se complètent bien.
11:18Vous avez Live Memory
11:19avec sa consolidation
11:20et qui est capable de pousser
11:22lui-même dans Graph Memory.
11:24sur les notes,
11:25on est en subseconde.
11:27En termes de consolidation,
11:29on est sur la dizaine de secondes.
11:31Donc, on est vraiment sur des choses
11:32qui sont extrêmement fluides
11:33et qui sont compatibles
11:34avec le temps réel.
11:35Pour ce qui est, par contre,
11:37de la capitalisation à long terme,
11:39on est vraiment sur de la matière
11:40de long terme.
11:41Et donc, là,
11:42on est sur des temps plus longs
11:43et principalement en traitement
11:44à sa crône la nuit.
11:46Et je vous ai mis un petit peu
11:48d'architecture technique.
11:49On est sur du Docker derrière
11:51et tout est packagé.
11:52Donc, vous avez un WAF.
11:53En l'occurrence,
11:54c'est du Corazza qui est derrière.
11:56Et vous avez les services MCP
11:58qui sont sous-jacents.
12:00Rien de très compliqué
12:01pour des gens comme vous
12:02quand ils vont vouloir mettre
12:04des mémoires de long terme
12:06pour leurs IA.
12:07Voilà, je vous ai mis
12:09les URL GitHub.
12:11J'espère que vous ou vos équipes,
12:13vous en aurez besoin
12:14et que vous les utiliserez.
12:16Je vous redonne aussi,
12:18si je peux,
12:20je peux comment je peux,
12:22l'URL de la présentation.
12:23Ça s'appelle
12:24en haut de mémoire.pitch.plot.tample.app
12:27et tous ceux qui veulent,
12:29en tout cas,
12:30participer avec nous
12:31aux recherches
12:32sur les frameworks agentiques
12:36au niveau France-européen,
12:38je serai ravi de discuter avec eux.
12:42Merci.
Commentaires