00:00 Bonjour à nouveau. Je ne vais pas parler longtemps. Je vais me contenter de présenter
00:14 en introduction et de conclure la présentation que va faire Florian. Comme Mathieu l'a déjà
00:21 dit, là on va parler d'utilisation de Ricot pour construire un graphe de connaissances
00:28 à propos de documents médiévaux. Juste quelques mots au sujet du contexte de ce projet. Il
00:37 s'agit d'un projet qui s'appelle Oresme, en français œuvres et référentiels des
00:41 étudiants, suppôts et maîtres de l'université de Paris au Moyen-Âge. Un projet de recherche
00:48 en histoire qui a démarré en 2019, qui est mené par plusieurs institutions, en particulier
00:56 par la bibliothèque interuniversitaire de la Sorbonne, qu'on appellera plus loin BIS,
01:02 qui a eu l'initiative du projet et qui le porte administrativement. Le laboratoire de
01:08 médiévistique occidentale de Paris, qui est une équipe de chercheurs en histoire
01:14 habitués à utiliser les technologies numériques. Et les archives nationales où sont spécialement
01:21 impliquées le LAB, que vous connaissez déjà, et le département du Moyen-Âge et de l'Ancien
01:29 Régime, qui est le service de la direction des fonds sous l'égide de Marie-Françoise
01:34 Limon, qui s'occupe des archives antérieures à la Révolution, pour le dire très vite,
01:41 aux archives nationales. Pourquoi ces institutions ? Parce que le fonds de la très ancienne
01:48 université de Paris, pour ceux qui ont un peu de notion d'histoire en Europe et en
01:56 France, a été démembré sous la Révolution. Et si beaucoup de ces documents sont aujourd'hui
02:04 conservés aux archives nationales, c'est dans des différentes collections formées
02:09 après la Révolution, selon une perspective assez thématique et non selon la provenance.
02:17 Et une autre partie de ces archives est conservée aujourd'hui à la BIS, sur la base de ce
02:25 constat, et grâce à un financement essentiellement fourni par l'infrastructure de recherche
02:33 française Colex-Percé, une équipe s'est montée pour essayer d'atteindre deux buts
02:42 principaux. Le premier, mieux comprendre l'histoire du fonds de cette ancienne et prestigieuse
02:48 université, en le reconstituant virtuellement, mais avec l'idée de pouvoir être capable
02:56 de dire à tel moment, au Moyen-Âge ou au début de l'Ancien Régime, le fonds était
03:01 constitué de ces objets-là. Et deuxième objectif, étudier le réseau de personnes
03:06 et d'institutions formant cette université et relier à elle. Le choix technologique
03:15 qui a été fait a été d'utiliser les technologies sémantiques comme le cœur du futur dispositif.
03:21 J'y reviendrai peut-être un peu dans la conclusion. En fait, je vais passer la parole
03:26 à Florian, parce que dans le cadre de ce projet, Florian Langeley, qui termine actuellement
03:33 sa deuxième année de master technologie numérique appliquée à l'histoire à l'École
03:38 nationale des Chartes, a effectué un stage de quatre mois d'avril à juillet dernier
03:45 à la BIS d'une part et au Lab d'autre part pour travailler à la construction du
03:52 graph de connaissances. Donc, Florian, je te passe la parole.
04:03 Bonjour, moi j'ai travaillé sur le projet Auresme pendant quatre mois, comme Florence
04:08 l'a dit par rapport à mon stage. Je ne suis pas parti de rien, je suis parti d'une
04:15 première preuve de concept que Florence avait déjà réalisée puisqu'elle est partie
04:19 première du projet en 2021. Cette preuve de concept utilisait déjà Ricoh 0.2 et avait
04:26 montré les possibilités et surtout l'utilité du passage en sémantique en utilisant l'ontologie
04:33 Ricoh. La présentation est disponible qu'elle avait faite à ce sujet.
04:37 Mon stage consistait à étendre cette preuve de concept, notamment puisque Florence avait
04:44 travaillé sur un petit groupe de données, 188 archives dépouillées que j'ai étendues
04:51 à plus large. Mon stage aussi cherchait à commencer à travailler directement sur le
04:58 graph en montrant les possibilités qu'on pouvait avec l'inférence et aussi à travailler
05:03 sur les besoins utilisateurs, notamment pour la relacture que les chercheurs devront mener
05:09 sur nos données qu'ils ne peuvent pas chercher directement en Sparkle.
05:16 On va parler d'abord de nos données sources. Les données qu'on a proviennent de campagnes
05:25 de dépouillement financées par le LabEx ASTEC et réalisées au cours de l'année
05:30 2021-2022. Ces dépouillements ont eu lieu principalement aux archives nationales mais
05:35 aussi dans certaines archives départementales comme les archives de la Seine-et-Marne et
05:40 de l'Oise. Ils se basaient sur des inventaires pré-existants qui ne fournissait pas suffisamment
05:45 d'informations pour les enjeux scientifiques du projet. Le choix a été fait de retravailler
05:52 directement sur les originaux pour extraire davantage de données de contexte sur ces
05:57 pièces d'archives. Ce que j'ai traité du remontage, ça concerne 1441 pièces d'archives
06:04 parties sur 13 collèges différents puisque les collèges étaient liés à l'université
06:08 de Paris donc c'était très intéressant pour les enjeux scientifiques d'extraire
06:12 ces données. Ces données, vous avez un exemple à droite, c'est un exemple des données
06:20 qu'on peut retrouver sur une seule pièce d'archives. Ici c'est une pièce du collège
06:24 des Cholets. Je vous l'ai mise sous la forme verticale mais on les trouve dans des fichiers
06:29 Excel qui suivent une méthodologie avec 47 champs ou colonnes choisies par le conseil
06:37 scientifique du projet. L'archiviste en charge des dépouillements a rempli chacune de ces
06:43 47 colonnes avec des informations qu'elle a pu extraire au moment des dépouillements.
06:48 Cette description 47 colonnes c'est énorme. C'était des descriptions très détaillées
06:54 notamment sur les personnes, physiques ou morales et sur l'historie de conservation
06:58 donc les anciennes cotes, les anciens conservateurs de l'archive et tout ce qui est mention dorsale
07:05 etc. L'utilisation de Ricoh était assez naturelle puisque déjà Florence fait partie
07:19 du projet donc elle a pu nous apporter son expérience à ce niveau là mais surtout
07:25 son ontologie de référence quand il concerne la description d'archives et son caractère
07:32 assez générique permettait d'exprimer n'importe lesquelles des relations dont on avait besoin,
07:36 en tout cas en surpropriété pour nos besoins mais il a fallu quand même pour exprimer
07:44 les spécificités de la recherche médiévale et surtout des archives médiévales, étendre
07:52 cette ontologie. Donc quand on l'a étendue, on a créé 42 relations d'entités à entités
08:00 qu'on appelle object properties, 42 ça compte les inverses donc en vérité il n'y en a
08:04 que 21 et 17 data type properties donc les attributs des entités. Toutes ces relations
08:12 qu'on a créées sont des sous-propriétés de Ricoh ce qui permet l'interopérabilité
08:16 de nos données. On n'a pas créé de classes parce que toutes les classes créées par
08:22 Ricoh étaient suffisantes pour exprimer ce dont on avait envie. Là ici je vous ai mis
08:27 un screen de l'arborescence de nos relations donc en graphe vous avez les relations que
08:35 nous avons créées pour exprimer les besoins donc notamment puisqu'on s'intéresse à
08:41 l'historique de conservation on avait besoin d'exprimer si une cote était actuelle ou
08:44 ancienne ou si une cote était incluse dans un ensemble plus général. Donc ça c'était
08:51 ce qu'on fait descendre de la relation as-or-add-identifier ce qui nous permet quand même de nous rattacher
08:56 au model-ric. Donc là je vous ai mis une représentation en UML des relations dont
09:11 on avait besoin pour représenter nos données. Les traits bleus représentent les relations
09:18 déjà créées par Ricoh et en rouge, les flèches rouges représentent les relations
09:23 que nous avons créées pour le besoin. Ici c'est le même exemple que le tableau précédent
09:26 que je vous ai montré. Je peux vous citer quelques relations créées notamment la relation
09:33 a pour testateur qui est une notion très importante en termes médiévaux que nous
09:40 avons fait descendre de la relation as-auteur puisqu'un testateur c'est un type spécifique
09:44 d'auteur. Également aussi la relation est-conservée actuellement par puisque l'archiviste en
09:50 charge des débrouillements a relevé de nombreuses institutions de conservation intermédiaires
09:56 qui sont par exemple le collège Joliot-Grand qui étaient nécessaires d'exprimer dans
10:02 notre modèle de données. Je peux aussi citer la relation a pour vidimus puisque le vidimus
10:06 c'est un type spécifique d'archive qui descend de la relation as-copie. Le vidimus
10:15 c'est une notion très médiévale dont on avait besoin pour le modèle que l'on peut
10:21 rattacher au modèle Ricoh. L'ensemble de la transformation qu'on a effectuée entre
10:31 le passage du fichier Excel à un modèle RDF est documenté dans un mapping. Vous avez
10:38 un screen du tableau ici. Ce mapping a été réalisé sur les 47 champs donc aucun champ
10:47 n'a été oublié. Tous les champs des campagnes de débrouillement ont pu être exprimés
10:52 avec notre ontologie qui est en Ric évidemment. La transformation se fait avec un script XSLT
10:59 que nous avons développé conjointement avec Florence qui transforme les 1441 pièces en
11:05 environ 5-6 secondes. C'est très puissant et on essaiera de continuer à l'utiliser
11:12 pour les futures campagnes de débrouillement qui vont suivre puisque l'idée du projet
11:16 est de débrouiller l'ensemble du fond de l'ancienne université de Paris. Pour certaines
11:23 de ces données, notamment les états des documents, nous avons utilisé les référentiels
11:33 développés par le Lab des Archives Nationales. C'est rédigé en scotch qui utilise l'ontologie
11:40 Ricoh aussi. Une fois qu'on avait effectué la transformation de nos données en RDF,
11:52 on a commencé à explorer le graphe. On les a mis dans une base de données, un graphe
12:00 de connaissances, un triple store. Il en résulte que nous avons, je vais vous parler un peu
12:06 en chiffres, on a 3457 entités personnes qui ont été créées. Sur 1441 pièces d'archives
12:14 débrouillées, on a pu extraire 3457 personnes. Évidemment il y aura des variations puisque
12:21 il y a beaucoup de toponymes ou de graphies différentes mais c'est un chiffre très intéressant.
12:25 Aussi, 102 institutions, 314 lieux et 1770 pièces d'archives. Ce n'est pas le même
12:32 chiffre que le nombre de pièces débrouillées puisque nous avons aussi extrait les originaux.
12:37 Donc plusieurs fois dans les débrouillements, l'archiviste en charge a identifié une pièce
12:44 comme étant une copie ou un vidimus ou un extrait d'un acte, d'un original, mais l'original
12:49 n'a pas été retrouvé. Cet original est quand même représenté dans la base comme
12:55 un record ressource mais il n'a pas d'instanciation. C'est là qu'on fait la différence entre
12:59 la pièce d'archives intellectuelle et la pièce d'archives physique. On a aussi 1447
13:07 instanciations, donc c'est 6 instanciations de plus que les 1441 pièces débrouillées
13:13 puisque aussi certaines de nos pièces étaient numérisées. Donc les instanciations représentent
13:18 6 pièces numérisées directement par les archives nationales.
13:23 Donc là vous avez la représentation en graphes toujours de la même pièce. L'exploration
13:32 dans le graphes se fait aussi par les langages Parkell. Ce qui est intéressant pour la recherche
13:37 c'est qu'on peut faire des requêtes qui donnent beaucoup de sens aux données. Ici
13:41 je vous ai mis un exemple d'une requête que j'ai rédigée pour identifier par siècle
13:46 le nombre de pièces et la langue qu'elle utilisait. On voit qu'au début le latin
13:50 prédomine puis au fur et à mesure des siècles qui passent le français prend de plus en
13:54 plus de place.
13:55 Évidemment Sparkle ne fait pas tout et nous avons décidé d'utiliser un début de l'interface
14:08 Spanatural pour permettre la relecture des données. Ici je vous ai mis un screen d'une
14:13 requête construite suivant la configuration que j'ai faite en utilisant Spanatural 8.5.0.
14:20 Le résultat est assez satisfaisant même si la prise en main reste à appréhender
14:26 évidemment. Ce n'est pas évident pour tout le monde de comprendre la logique de création
14:30 mais quand on s'y met on se rend compte très vite des possibilités et ça permettra je
14:35 pense à terme d'aider beaucoup la recherche puisque l'interrogation du graphes permet
14:40 beaucoup plus de choses qu'un simple formulaire traditionnel.
14:45 Il reste juste cette diapositive de conclusion. En termes de perspective après ce stage court
14:53 et intense c'est de poursuivre le travail bien entendu. Des données coexistent avec
15:01 les fichiers Excel de dépouillement qui attendent d'être sémantisés en particulier des données
15:08 que l'on va sortir d'un fichier XML EAD coproduit par l'équipe Projet et qui décrit les ensembles
15:18 documentaires cette fois-ci constituant les archives de l'université telles que l'on
15:25 est en mesure de les reconstituer aujourd'hui pour l'époque médiévale. Inversement nous
15:34 allons avoir besoin de réintégrer les données que nous avons produites dans les instruments
15:38 de recherche préexistants aux archives nationales. Dans le cadre de ce projet nous avons également
15:45 - ce n'est pas en fait le lab qui en est la source mais le DEMAR avec Jean-François Moufflet
15:52 a produit un tableau qui décrit de façon extrêmement détaillée y compris avec des
15:59 données spatio-temporelles des types d'actes, des états d'actes et des formes d'actes,
16:07 tous concepts entre guillemets puisque ce ne sont plus des concepts que nous allons réintégrer
16:11 dans les référentiels correspondant des archives nationales en utilisant SCOSS et RICO. Nous
16:17 allons en avoir besoin et puis ensuite nous allons faire bénéficier au projet. Par ailleurs
16:24 et ça c'est la principale problématique en ce qui concerne les données, des travaux
16:30 de réconciliation doivent être menés entre les personnes qui ont émergé dans le cadre
16:37 de ce premier travail avec elles-mêmes mais aussi avec les données d'une base de données
16:44 produites préalablement par le LAMOP qui s'appelle Studium Parisiense et qui est en
16:50 cours dont le contenu devrait également être sémantisé pour produire un référentiel
16:59 en ligne et opérer des réconciliations. Et enfin l'interface complète d'interrogation
17:06 de ce graphe reste à construire. Elle ne doit pas se limiter évidemment. Une interface
17:14 de recherche de type avancée comme celle que SporNatural peut facilement permettre
17:21 de construire.
17:22 Voilà, je vous remercie.
17:26 Merci.
17:28 Merci.
17:30 Merci.
17:32 Merci.
17:34 Merci.
17:36 Merci.
17:38 Merci à tous !
17:40 [SILENCE]
Commentaires