00:00 Bonjour à tous et j'espère que vous avez encore une toute petite once de courage pour
00:13 cette dernière présentation. Merci beaucoup Florence de nous donner l'opportunité de
00:19 présenter France Archive, donc le portail agrégateur pour les archives françaises,
00:24 porté par le service interministériel des archives de France, aussi appelé CIAF, au ministère de la
00:30 culture, en partenariat avec les ministères des armées et des affaires étrangères. Mis en ligne
00:37 en mars 2017, il a ouvert en septembre 2023 un Sparkle Endpoint, peuplé de près de 400 millions
00:47 de triplés, interrogables par les outils Sparknatural et Yasky. C'est une des rares utilisations de
00:55 Ricoh à aussi grande échelle à notre connaissance, mais il faut dire que nous n'avons pratiquement pas
01:02 communiqué sur cela. L'objectif de cette présentation est bien sûr de vous présenter
01:08 les choix d'utilisation de RDF avec Ricoh sur France Archive et je remercie beaucoup tous ceux
01:14 qui sont intervenus ce matin et tout au long de cette journée parce qu'il y aura beaucoup de
01:20 redites. On voit que nos constats rejoignent beaucoup d'autres, mais on a choisi aussi de
01:27 vous présenter les implications que, en tant que CIAF, nous voyons sur les pratiques de description
01:35 des archivistes français. Le CIAF, pour nos collègues non français, anime et coordonne,
01:46 contrôle le plus grand réseau d'archives publiques françaises au niveau national et territorial et
01:54 définit les bonnes pratiques de description archivistique en France, bien sûr en collaboration
02:02 avec des représentants des autres réseaux d'archives qui existent en France, notamment
02:09 ceux des universités. Deuxième préalable, un agrégateur offre des services aux internautes,
02:20 bien sûr sa cible privilégiée, en cassant les silos entre institutions, déjà sur un portail
02:27 agrégateur classique, mais il offre aussi des services à ses contributeurs en donnant plus
02:33 de visibilité à leurs données sur le web et en leur redistribuant des données enrichies qu'il
02:41 aurait pu retraiter. Donc France Archive, en quelques chiffres, ne peut pas fonctionner sans
02:51 ses contributeurs, 138 actuellement, qui ont fourni au portail plus de 21 millions
02:59 d'unités de description d'archives, 16 000 fiches descriptives de producteurs d'archives,
03:06 et il assure aussi une fonction de recherche et développement sur les usages innovants d'accès
03:14 aux informations archivistiques telles que le 3IF et le RDF. La mission principale du portail
03:24 étant de donner de la visibilité aux ressources archivistiques françaises, vous voyez qu'en
03:30 entrée il accepte tous des formats plus ou moins structurés, même si 90% des données en entrée
03:39 sont en XML et à moyen terme il n'est pas prévu d'accepter en entrée du Ricoh. Cependant France
03:48 Archive retraite ces données pour les diffuser de différentes façons, bien sûr en recherche et
03:55 visualisation sur le portail classique, mais aussi il alimente Archives Portal Europe, il met les
04:05 données en open data et les diffuse dans un Sparkle Endpoint. Vous avez été plusieurs ce matin
04:13 à pointer l'hétérogénéité des données au sein d'une institution. A l'échelle d'un agrégateur,
04:22 vous pouvez vous douter qu'on est à une échelle 100 fois ou encore plus haut pour traiter ce
04:31 problème. Donc nous avons mis en place un processus de traitement des données où sans toucher aux
04:41 données sources, on extrait toute l'indexation qui figure dans les inventaires et leurs composants
04:49 pour en faire ce qu'on appelle des autorités sur France Archive, lieu, agent et thème, dont les
04:56 libellés sont harmonisés conformément au code RDAFR, elles sont groupées et alignées vers des
05:04 référentiels externes de façon à récupérer des données pour les enrichir et elles sont aussi dotées
05:12 du RIS. Cependant le réservoir de données à traiter était immense et on s'est aperçu qu'il
05:22 fallait une vérification humaine. Donc depuis début 2022, nous alimentons des réservoirs d'autorités
05:34 de qualité et vous voyez qu'on a un chantier pour plusieurs années que l'on essaie de, en quelque
05:43 sorte, de certifier. France Archive crée ces référentiels internes et ces autorités de
05:49 qualité sont converties en RDF. Cette conversion est réalisée par Logilab, qui est notre prestataire
06:01 de développement expert en Linked Open Data. Logilab traite les données à partir de la
06:11 base de données. On s'est inspiré des mappings élaborés par les archives nationales pour
06:18 Ricoh Converter mais on les a adaptées à notre modèle de données spécifique. Deux graphes sont
06:25 créés. Un graphe dit de qualité peuplé d'environ 283 millions de triplés et un autre d'environ
06:36 110 millions de triplés pour toutes les autres données qui sont dans les fichiers XML, EAD et un
06:43 peu trop verbeuse pour une exploitation efficace en RDF. Cette opération est réalisée tous les six
06:50 mois vu l'ampleur des données et le temps de conversion on en a pour 50 heures. Les données
06:57 en RDF sont exploitées en interrogation sur France Archive grâce à deux outils, YASGI et
07:06 SPARNATURAL. Ce dernier, dont vous voyez la copie d'écran, est limité aux graphes de qualité et il
07:13 exploite une ontologie de recherche adaptée à nos données qui a été élaborée par ma collègue
07:20 Mathilde Doga qui est là avec moi. Il est possible d'exporter des résultats sous forme de tableau et
07:28 de basculer vers le portail classique pour visualiser les données. Quelques constats
07:35 maintenant sur ce projet. En tant qu'agrégateur, nous sommes loin d'exploiter toute la finesse de
07:45 RICO à cause de l'hétérogénéité des données. Vous voyez sur cette diapositive ce que l'on a
07:52 pu exploiter dans le graphe de qualité. Par exemple, on n'a pas pu utiliser l'attribut
08:01 @level pour qualifier le niveau de description des données en EAD. Tous les composants sont
08:08 donc traités comme des records de ressources ce qui empêche d'exploiter les types de documents
08:14 par exemple. De même, seule une douzaine de relations ont été utilisées, bien qu'on ait
08:24 joué sur les données enrichies provenant de réservoirs externes aux métadonnées archivistiques.
08:33 Donc pourquoi avoir choisi le RDF et RICO ? RIC-CM est porté par l'ICEA, qui est un garant de
08:44 pérennité pour nous. Il met en exergue les principes fondamentaux de la description
08:50 archivistique. Donc on ne peut qu'y être sensible. RICO est l'anthologie adaptée à ce modèle
08:56 conceptuel et son efficacité avait été prouvée en France par les travaux des archives nationales.
09:02 Le choix de RDF, ça a été dit, c'est aussi pour s'inscrire dans un univers du web de données
09:12 liées, qui est largement exploité par les bibliothèques et les musées. Il fallait donner
09:17 une visibilité aux métadonnées archivistiques. Les technologies du web sémantique, cela aussi
09:24 était dit déjà précédemment, nous ont permis d'aligner, d'enrichir relativement
09:30 simplement nos données grâce à des référentiels externes, d'aligner les données internes aussi,
09:36 de faire de la réconciliation et de mettre en valeur, faire des recherches transversales
09:42 entre inventaire et notice de producteurs d'archives. Les données récupérées grâce
09:48 aux alignements nous permettent aussi d'exploiter ces données sur le portail classique en proposant
09:55 des recherches additionnelles aux internautes. Et là vous avez un exemple qui est presque
10:02 complet. Et nous espérons, c'est la suivante, le RDF étant machine readable, nous espérons pouvoir
10:14 lier nos données, nos métadonnées archivistiques avec d'autres réservoirs, autant de réservoirs
10:21 externes que possible et par ricochet renvoyer vers le site source de nos contributeurs.
10:27 RDF et Rico présentent cependant des défis. Le premier étant lié à la volumétrie des données
10:39 que nous avons sur France Archive et par conséquent aux performances des outils. Nous avons dû pendant
10:49 toute l'année qu'a duré la recette de ce projet revoir nos grandes ambitions, nos ambitions qui
10:58 étaient très grandes au départ comme pour tout projet, à la baisse et le choix le plus douloureux
11:03 fut l'abandon de l'autocomplétion pour les lieux et les agents. L'outil Spar natural et Virtuoso
11:12 probablement ne permettant pas d'exploiter 25 millions ou 25 000 ou 33 000 entités. RIC est
11:21 également révélateur d'un fort enjeu de qualité des données qui était pressenti depuis pas mal
11:31 d'années mais montre, et cela a déjà été dit donc je vais passer rapidement, le besoin d'une
11:38 description plus fine et plus structurée et aussi de notices EAC-CPF. C'est une forte
11:45 implication, nécessité et il souligne l'importance de l'indexation à la bonne granularité à
11:56 condition qu'elle soit, qu'elle suive le code RDA-FR et utilise des vocabulaires communs. Enfin
12:03 la conversion en RDF n'est pas anodine, implique des changements d'habitude de notre public et des
12:12 archivistes. Cela a été dit, il faut penser la recherche que l'on fait avant d'utiliser une
12:20 requête Sparkle, même avec un outil aussi génial que Spar natural car cela implique une réflexion
12:25 sur ce qu'on cherche, une réflexion préalable. C'est encore aussi pour les archivistes où RIC,
12:35 ça implique presque une révolution des pratiques de description, d'impertants investissements
12:43 financiers en temps et aussi des compétences nouvelles et j'avoue que sans Mathilde et aussi
12:51 mes anciens collègues qui étaient tous formés du master de TNAH de l'école d'Eschart, n'aurions
12:57 pas réalisé ce travail aussi poussé et aussi rapidement. Je vais passer la parole à Mathieu
13:02 pour les perspectives. Merci Manomani. Pour terminer rapidement quelques perspectives.
13:09 Tout d'abord le CIAF qui est l'administration des archives françaises, qui assure la tutelle des
13:16 services d'archives nationales, départementales et municipales, recommande à ces services d'archives
13:21 tout d'abord de perfectionner leur pratique de description en utilisant les standards EAD et
13:26 EAC CPF comme l'a évoqué Kerstin Arnold dans son intervention de ce matin, que je vous invite à
13:32 consulter lorsqu'elle sera diffusée si vous n'êtes pas pu y assister en direct. De son côté, le
13:39 portail France Archive prendra en charge la conversion et la diffusion des données en RDF,
13:44 ces données pouvant ensuite être récupérées et exploitées par les services d'archives s'ils le
13:49 souhaitent. Ces services peuvent bien entendu, cependant s'ils le souhaitent, utiliser RICO pour
13:55 des valorisations ponctuelles de fonds spécifiques, notamment dans le cadre de projets de recherche.
14:00 Donc voici les recommandations de l'administration française des archives. Pour les mettre en
14:10 oeuvre, le CIAF a impulsé un mouvement de transition archivistique avec la création en 2020 d'un groupe
14:17 de travail national sur la description et l'indexation des archives. L'objectif est
14:22 d'encourager les services d'archives à indexer et à décrire leurs fonds d'une manière plus
14:26 adaptée au web, en utilisant les dernières versions si possible de l'EAD et de l'EAC CPF,
14:31 dans l'optique d'optimiser les pratiques actuelles des archivistes en prenant en compte les outils et
14:37 les moyens dont ils disposent. Le CIAF mise donc sur une transition qui repose sur une montée en
14:44 qualité des données et non sur une révolution archivistique. Enfin, le portail France Archive
14:52 apportera sa contribution à ce mouvement en mettant à disposition des outils, en reversant
14:58 les données enrichies à ses partenaires et en créant l'année prochaine normalement un
15:03 référentiel des personnes et des institutions publiques. Et pour conclure très rapidement,
15:09 nous voyons vraiment de réelles opportunités dans le RICO et le RDF pour multiplier les points
15:17 d'accès et donner de la visibilité aux métadonnées archivistiques, en permettre une exploration
15:23 transversale. Mais cela présente encore des défis qui pourraient être transformés tout à fait en
15:31 atouts si on utilise RIC CM, RICO aussi comme levier, pour adopter nos pratiques actuelles
15:38 de description. Et probablement dans le temps cela va arriver à maturité. Et ce que nous appelons
15:46 nos voeux c'est qu'en fait il y ait une boucle d'amélioration mutualisée des données entre
15:54 France Archive, ses contributeurs présents et futurs. Merci pour votre attention.
15:58 – Sous-titrage : Le Crayon d'oreille -
16:04 [Silence]
Commentaires