00:00Tous les skyblogs sont là, tous les 12 millions de 600 000 skyblogs sont stockés ici.
00:05Alors actuellement dans nos collections, on a 60 milliards de pages web,
00:08les premiers forums, les premiers blogs,
00:10pour constituer le patrimoine, cette mémoire numérique française
00:14pour les générations futures.
00:16206 Corsair qui a tuné sa 206.
00:21Depuis l'apparition du web, la Bibliothèque Nationale de France
00:25s'est tout de suite souciée de collecter tous les contenus sur le web français.
00:29Les premiers sites web, les premiers forums, les premiers blogs,
00:32tous les sites de médias, Facebook, Twitter, TikTok.
00:36Dans nos collections, de 1996 à nos jours,
00:38on a toute cette histoire du web français.
00:43Je peux te montrer à quoi ça ressemble déjà.
00:45Ce portail d'accès aux archives de l'Internet.
00:48On dit que c'est une machine à remonter le temps.
00:50On sait que le web, au tout début, c'était surtout des pages de sociétés
00:54qui voulaient communiquer sur leur activité.
00:56Si je tape combini.com, on a la première capture qui remonte à 2009,
01:02le 26 septembre 2009.
01:04Un joli gif avec le logo Combini qui clignote.
01:08Là, on est le 1er décembre 2014.
01:10Combini, All Pop Everything.
01:13Là, c'est plutôt une bonne collecte.
01:15On a quasiment tous les contenus.
01:17Tout l'intérêt de la mission du dépôt légal du web,
01:19c'est pour garder la trace de ce qui, à un moment donné,
01:23a été transmis, diffusé, lu, écouté, entendu.
01:27La mission du dépôt légal, c'est tout à fait ça.
01:31L'équipe de Skyblog nous a contactés en disant
01:33qu'on allait supprimer les 12 600 000 blogs à l'été 2023.
01:39On sait que vous, à la BNF, vous archivez le web français.
01:42On a décidé de tout collecter.
01:50J'ai créé ce blog pour parler de ma vie de collégienne,
01:52de ma vie sentimentale et de la vie de mes copines.
01:54Et oui, c'est le but de ce blog.
01:56N'oublie surtout pas de lâcher des comms, lâcher des commentaires.
01:58La vie sans les amis, ce serait comme une tartine sans Nutella.
02:02C'est de l'aphorisme.
02:04Ça, c'est toi ?
02:05Ça, c'est carrément moi, oui.
02:07Ça te fait quelque chose de retrouver ton Skyblog de 12 ans ou pas ?
02:11Oui.
02:13Et puis, Brune est fière de l'être.
02:17Fais ta pub sur mon blog.
02:19Mon vieux Skyblog est financé pour l'éternité dans les archives par nos impôts.
02:25C'est une manière de présenter les choses,
02:26mais en fait, il n'y a pas de distinction entre un blog d'ado et un site d'université.
02:34Donc, pour nous, ça a la même valeur.
02:38Par définition, on ne sait pas ce qui va intéresser les chercheurs dans 10, 20, 30, 50 ans.
02:42Des chercheurs viendront comprendre tout un tas de contenus
02:45qui peuvent paraître frivoles ou anecdotiques pour nous au moment où on le collecte.
02:50Donc, effectivement, une page de blog ou une vidéo TikTok a toute sa place à la BNF
02:54à côté d'un manuscrit enluminé du 9e siècle.
02:57206 corsaires qui a tuné sa 206.
03:03Il y a effectivement des sites pornographiques
03:07qui peuvent être collectés par le dépôt légal du web.
03:10C'est quand même très à la marge et on n'a pas une collecte spécifique sur ce segment-là.
03:14Mais encore une fois, ça fait partie à un moment donné de ce qu'est le web.
03:20On réalise deux types de collectes.
03:22Des collectes larges, une fois par an,
03:24qui essayent de couvrir le spectre le plus large de tous les noms de domaines français.
03:30À côté de cette collecte large, on réalise des collectes ciblées
03:33pour documenter des événements sur le web.
03:36Il y a le procès de Nicolas Sarkozy en rapport avec le dossier libyen.
03:42Donc ça, typiquement, c'est une page qu'on va aller archiver tout de suite
03:45parce que pendant toute la durée du procès, elle sera probablement mise à jour.
03:49On travaille avec notre robot Erytrix.
03:52On lui donne une liste d'URL bien précise.
03:55À la manière d'un internaute, il va aller cliquer sur tous les liens qu'il va rencontrer
04:00jusqu'à une certaine profondeur qu'on lui aura attribuée.
04:04Alors là, on se dirige vers le data center.
04:09Très peu de personnes à la BNF ont accès à cet endroit.
04:22Donc ici, en fait, dans cet armoire, c'est là que le robot travaille.
04:26Lorsqu'on lui donne des millions d'URL à aller collecter,
04:30ça part de là et après c'est envoyé sur le web pour une collecte à des fréquences variables.
04:36Mais en tout cas, les espaces de travail du robot sont ici.
04:39Donc c'est un peu la maison d'Erytrix.
04:41Ton collègue qui habite sur place et qui travaille 24h24.
04:44Voilà, exactement. Vraiment 24h24 en plus parce qu'il ne s'arrête jamais une fois qu'on le lance.
04:51Alors actuellement, dans nos collections, on a 2,4 pétaoctets de données,
04:552 400 000 gigaoctets.
05:01Sur ces baies de stockage, on a toute l'histoire du web français.
05:062996 à nos jours.
05:08Tout ça, c'est que des petits disques d'armature ?
05:10Un disque, ça fait 4 Teraoctets de données.
05:12Donc voilà, ça donne un ordre d'idée de la place.
05:162 400 disques de 4 Tera.
05:19Mais c'est la taille d'une penderie ?
05:21Voilà, donc ce n'est pas immense non plus en termes de stockage.
05:25Mais voilà, c'est comme ça que ça marche.
05:28On a un peu moins de 60 milliards d'URL.
05:3260 milliards de pages web.
05:34Donc là, tout à coup, c'est une échelle tout à fait différente et assez vertigineuse.
05:40On ne pourra jamais consulter toutes les pages web.
05:43Mais on travaille sur le très long terme pour le patrimoine.
05:46Ici, effectivement, tout est sécurisé pour résister à tout.
05:51Inondation, feu, détérioration de tout type.
05:55Et tout l'objectif, c'est de maintenir l'accès à l'information pour les années à venir.
06:02En 10, 20, 40, 50 ans, 100 ans, on est sûr de pouvoir rejouer l'information
06:07au plus proche de ce qu'elle était au moment de la collecte.
06:10Et c'est la raison pour laquelle, quand on collecte, on embarque aussi les technologies.
06:13On peut très bien lire des anciens sites en flash, par exemple.
06:16Cette techno flash qui n'existe plus.
06:18Ça, c'est un jeu vidéo en flash.
06:20On l'a capturé en 2011.
06:22Il a disparu d'internet et nous, on peut y avoir accès dans nos collections.
06:26Je suis Justin Bieber et je dois me battre contre les zombies.
06:30Je ne sais pas très bien jouer.
06:32Je suis en train de me faire complètement manger.
06:36Ils sont à mes trousses, mais ça va, j'ai réussi à les...
06:39Ouh là !
06:40Je ne sais pas si je peux m'échapper par là.
06:42Il a l'air d'y avoir du feu.
06:44Boum !
06:45Die Justin !
06:48Parti !
06:50Voilà.
06:51La partie un peu fun du métier peut-être ?
06:52Oui, c'est sûr qu'on tombe sur des contenus parfois un peu drôles, un peu divertissants.
06:59Exactement.
07:00Les archives de l'internet ne sont pas consultables librement sur le web.
07:04Il faut venir à la BNF, en salle de recherche,
07:07et dans certaines bibliothèques en région, 22 exactement,
07:10mais uniquement sur place, sur des postes dédiés.
07:14La mission de collecter tout le web français et l'archiver est une mission de service public.
07:18Pour constituer le patrimoine d'hier, d'aujourd'hui,
07:22cette mémoire numérique française pour les générations futures.
Commentaires