Colloque « Saving the Web » à la KBR : The Promise of a Belgian Web Archive
Le vendredi 18 octobre dernier, la KBR (bibliothèque royale de Belgique) et les Archives de l’État ont présenté lors d’un colloque le projet Promise, qui a pour objectif de mettre en place un système d’archives nationales du Web. La Belgique est l’un des derniers pays d’Europe à ne pas avoir un projet à long terme d’envergure nationale. Ce retard n’est cependant pas une fatalité, il pourrait s’avérer bénéfique pour créer le système le plus optimal. Lettres Numériques revient sur cette journée de présentation.
Le Projet Promise, qu’est-ce que c’est ?
Il existe en Belgique des initiatives ponctuelles mais limitées pour l’archivage du numérique, car elles ne couvrent pas l’ensemble du Web belge. Il devient nécessaire d’avoir un projet central pour décider quelle stratégie appliquer, dans la sélection des sites à archiver ainsi que dans la mise en accès de ceux-ci.
Le projet Promise, lancé en 2017, a pour but de baliser le chemin et d’arriver, in fine, à l’élaboration d’un système d’archivage performant et complet des sites belges, qui répondrait aux attentes des chercheurs, libraires, archivistes, éditeurs ou du grand public. Il veut aussi devenir le point d’accès central pour tout site archivé.
Une mise en œuvre en quatre étapes
Les participants à ce projet – la KBR, les Archives de l’État, les universités de Namur et de Gand et la Haute École de Bruxelles-Brabant – ont fixé quatre étapes à leur procédure, présentées en détail lors de ce colloque.
D’abord, ils se sont lancés dans une recherche d’informations sur les pratiques déjà existantes dans les autres pays. Leur but était de les comparer et d’identifier les meilleures pratiques et stratégies de l’archivage du Web.
Ensuite, ils ont travaillé sur l’élaboration d’une stratégie d’archivage. Il existe plus d’une centaine de possibilités de collecte. L’équipe nous a exposé quatre stratégies différentes.
- La première est la collecte complète, c’est-à-dire que le système enregistrerait l’ensemble du Web belge. Ils lanceraient une collecte large, ainsi qu’une collecte de tous les sites liés à la KBR et aux Archives de l’État (les sites des institutions fédérales et relatifs aux villes et aux communes, mais également les sites privés qui présentent un intérêt pour l’histoire du pays). En suivant ce premier scénario, on obtiendrait les archives de plus de 2 000 000 d’URLS.
- La deuxième stratégie présentée est celle d’une collecte large ne sélectionnant (aléatoirement) que 10 % des sites belges, avec une collecte sélective pour les sites de la KBR et des Archives de l’État (uniquement les sites des institutions fédérales).
- La troisième stratégie est un projet d’envergure minimum puisque aucune collecte large ne sera effectuée, uniquement une sélection des données de la KBR et des sites fédéraux.
- La quatrième stratégie, que l’équipe ne privilégie pas, est celle de l’outsourcing ; il s’agirait de stocker les archives dans un système à extérieur, ce qui a, certes, un avantage financier, mais qui présente le danger de perdre la totalité des données recueillies.
Au niveau des coûts, l’équipe a évalué les évolutions des ressources humaines (archivistes, informaticiens, bibliothécaires numériques), des matériels et des logiciels nécessaires pour les quatre scénarios envisagés. Le premier scénario est le plus onéreux, puisqu’il s’agit du plus ambitieux et du plus complet (un peu moins de 500 000 euros par an). Pour le deuxième scénario, qui restreint déjà énormément la collecte large, le coût reviendrait à un peu moins de 400 000 euros par an. La différence de coût est donc peu signifiante lorsque l’on voit la quantité de données supplémentaires que l’on peut archiver dans le premier cas. Le troisième scénario demanderait quasiment le même financement que le deuxième. L’équipe ne considère donc que les deux premiers scénarios, avec une nette préférence pour le premier.
Dans un troisième temps, l’équipe a lancé un projet pilote, un prototype qui gérerait les différentes étapes : la sélection des sites internet, leur capture, et la mise en accès des archives. Le projet s’est alors élargi au contrôle de la qualité des copies enregistrées. L’équipe nous a présenté les différents programmes utilisés : OCLC pour la sélection des sites, Heritrix, Browser Tric ou Brozzler pour la sélection des sites pour l’étape de capture des sites. Du côté de la mise en accès, deux logiciels existent à ce jour, l’un basé sur WARClight et l’autre qui procède plutôt par URL search. Enfin, pour le contrôle de qualité (est-ce que le visuel de l’archive correspond à l’original ? L’archive est-elle complète ?), l’équipe présente deux outils : le SSI (Structural Similarity) ou encore le VQI (Visual Quality Indicator).
Le dernier maillon de la chaîne de l’archivage numérique est l’accessibilité des archives. Aujourd’hui, leur accès est limité à une salle de lecture. L’ambition de l’équipe est de les rendre plus accessibles. Le contenu des archives serait d’office accessible in situ. Ils envisagent également une décentralisation, afin que les archives puissent être consultées ailleurs qu’à Bruxelles, ainsi que la mise en accès sur un site sécurisé pour la recherche et l’enseignement. Bien sûr, des exceptions seront de mise pour les contenus commerciaux et les contenus soumis aux droits d’auteur.
Que peut-on archiver ?
L’article 10 de la Convention européenne des Droits de l’Homme défend et protège le droit à l’information. Le droit à l’information se décline en deux facettes : une active, concernant le droit à la communication ; et une passive, du droit à l’accès à l’information. Si l’on n’archive pas les sites du Web, ce sont plusieurs milliers de sites et d’informations qui seront irrémédiablement perdus. Toutefois, on ne peut pas faire n’importe quoi avec ces archives. Il faut respecter une série d’obligations légales, analysées en finesse par l’équipe.
Finalement, pourquoi créer ces archives ?
Pour conclure ce colloque riche en informations, Valérie Schafer nous a synthétisé les nombreux enjeux de ce projet. Enjeu culturel, lié au patrimoine, à la culture et à l’histoire belge. Enjeu (inter)national et pédagogique également, car ces archives ouvriront de nouveaux champs de recherche. Il soulève aussi de nombreux défis technologiques, éthiques et ontologiques. Lorsque le nouveau gouvernement fédéral sera constitué, ils sauront, alors, quels subsides seront accordés et quelle option pourra être développée.
Ce qui est certain, c’est qu’ils ont réussi à transmettre l’importance de leur démarche. Les sites internet belges et les portails d’entreprise doivent être transférés dans un lieu sûr, dans un service d’archives de conservation permanente. Aujourd’hui, c’est le temps de l’action pour assurer la survie du patrimoine et de l’histoire du Web belge, pour les générations de demain.
Ailleurs sur Lettres Numériques :
- Focus sur la loi élargissant le dépôt légal aux publications numériques
- Sophie Vandepontseele : « Le dépôt légal est un outil de concertation avec les professionnels du livre »
- Le numérique, une solution au stockage des livres
Retrouvez Lettres Numériques sur Twitter, Facebook et LinkedIn.
— Noémi Paris Antelo