L’ ANR FermeGé a le plaisir de vous faire part de la tenue de son colloque les 06 et 07 juin 2024, au Ministère de l’Economie et des Finances (Paris – Bercy).


Télécharger le programme:
L’ ANR FermeGé a le plaisir de vous faire part de la tenue de son colloque les 06 et 07 juin 2024, au Ministère de l’Economie et des Finances (Paris – Bercy).
Télécharger le programme:
Vous pouvez vous rendre sur le site du dictionnaire à l’adresse suivante:
https://fermege.meshs.fr
In other cases […] definitions bear testimony of the evolution of society […]1.
C’est sur cette affirmation que le groupe d’ingénieurs, de linguistes et d’historiens composé d’Hervé Bohbot, Francesca Frontini, Giancarlo Luxardo, Mohamed Khemakhem et Laurent Romary conclut la présentation du projet Nénufar, visant à proposer un encodage en XML/TEI et une édition numérique du Petit Larousse Illustré (jusqu’en 1948)2. Comprenons donc que les dictionnaires apparaissent non seulement comme un corpus de notices recensant les connaissances à un instant donné sur une thématique spécifique, mais aussi comme un artefact ou une photographie d’une société et de sa culture. Si cet aspect semble indéniable pour les dictionnaires historiques, la situation est-elle comparable pour un dictionnaire nativement numérique, produit par une communauté de chercheurs en sciences historiques ? C’est à cette interrogation de portée générale que nous entendons apporter des éléments de réponse à partir du cas particulier du Dictionnaire numérique de la Ferme générale.
Il n’aura pas échappé à nos lecteurs réguliers que le carnet Hypothèses.org du projet FermeGé subit actuellement une refonte en lien avec le développement d’une application web ad hoc devant accueillir les notices. Par une série de billets, nous aborderons dans cette section les enjeux techniques touchant le développement du dictionnaire nativement numérique, de l’encodage et du traitement des données produites, ainsi que son insertion dans ce vaste champ disciplinaire que sont les humanités numériques.
A travers ce premier billet introductif, nous proposons de dresser un portrait des enjeux du traitement des données de la recherche associées au dictionnaire. Dans cette perspective, nous entendons expliquer les processus de transformation du projet justifiant l’abandon de la publication des notices sur cette plateforme pour mieux renaître sous la forme d’un objet hybride et novateur.
Tel un édifice, le dictionnaire numérique se compose d’un ensemble de briques informationnelles et logiques dont la plus essentielle est la donnée textuelle. Cette “donnée de la recherche” est le materiau primaire d’une chaîne de traitement permettant d’ajouter du sémantisme au texte brut. Dans cette perspective, il nous semble intéressant de poser certaines définitions que nous appliquons par la suite au dictionnaire.
Dans le cadre des sciences de l’information et de la communication, il est de coutume de modéliser la structuration des données de la manière suivante3:
Ce cadre conceptuel nous invite donc à inscrire la production des données de la recherche au coeur d’un processus de structuration de l’information. Or, force est de constater que dans sa phase initiale, le projet ne répond que partiellement à ces enjeux. Effectivement, les données textuelles brutes sont certes accessibles par le biais de la publication sur le carnet, mais elles sont très difficilement intéropérables et manque de sémantisme, rendant difficile la production de connaissances partageables et réutilisables. De plus, dans le cadre des engagements du projet vis-à-vis des principes FAIR4 et des obligations de mise en pratique de la Science Ouverte dans le cadre d’un financement ANR5, le projet ne pouvait plus se satisfaire d’un simple dépôt des notices sur le carnet Hypotheses.org. Les données produites par les rédacteurs doivent donc être encodées dans un format pérenne et interopérable.
Notre choix de modéle d’encodage des données s’est naturellement porté sur l’XML/TEI. La Text Encoding Initiative ((Les recommandations de la TEI sont disponibles et maintenues à l’adresse suivante : https://tei-c.org/Guidelines/P5/)) constitue un ensemble de recommandations destiné à l’encodage des données textuelles dans une perspective de réutilisation et partage des textes7. Depuis sa quatrième version (P4 – 2002), la TEI se base sur le langage d’encodage XML (eXtended Markup Language), permettant une grande interopérabilité dans un environnement nativement numérique. L’apport principal de l’encodage TEI est donc de pouvoir rendre explicite la structuration logique des données produites, tout particulièrement à l’échelle des notices. De plus, la mise en oeuvre d’un balisage sémantique est rendu possible grâce à la TEI, ce qui nous permet au sein du projet d’indexer un certain nombre d’éléments et entités nommées. Avant d’expliquer plus en amont l’intérêt scientifique d’un tel balisage, il nous faut en premier lieu modéliser la structure des notices produites. A l’échelle du dictionnaire, nous pouvons proposer un modéle conceptuel d’imbrication hiérarchique des données comme représenté ci-dessous:
Le dictionnaire représente a priori une oeuvre organique contenant un corpus de notice. Chaque notice comprend une entrée (le lemme), ainsi qu’une définition portant le sens. Cette strate peut être séparée en deux éléments : un bloc définitionnel (comprenant le corps de la notice scientifique), ainsi qu’un “bloc des références scientifiques” recensant les sources employées et la bibliographie scientifique mobilisée.
Par conséquent, il est possible de proposer un encodage structurel en XML/TEI que nous représentons ci-dessous sous forme d’une arborescence :
Dans ce modèle logique, chaque notice est encodée à part entière dans un fichier conforme aux recommandation de la TEI, comprenant le corps des notices au sein d’une balise <body> et l’ensemble des métadonnées descriptives ou sémantiques dans le <teiHeader>. C’est ici un apport supplémentaire de l’encodage en XML/TEI puisqu’il est possible d’ajouter un ensemble de métadonnées permettant de caractériser les notices, leur contenu (par l’indexation matière dans le langage RAMEAU maintenu par la BnF8) et par la mise en place d’une typologie. Cette gestion des métadonnées s’inscrit donc dans la perspective d’ouverture des données produites au sein d’un dictionnaire nativement numérique tel que le notre.
Le dernier apport majeur de l’XML/TEI est indéniablement la possibilité d’ajouter une couche sémantique au texte brut produit par les rédacteurs scientifiques. Dans cette optique, il nous est possible d’encoder les “entités nommées“, à savoir l’ensemble des expressions faisant référence aux institutions d’Ancien Régime et de la Ferme générale, ainsi que les topnymes mentionnés. Un fois encodé “semi-automatiquement” par un script informatique, il nous est possible d’indexer ces entités et de produire une base de données. A partir de cette base, un ensemble de moteur de recherche permettra aux utilisateurs d’interroger directement au sein du dictionnaire les noms d’institutions, de lieux ou des dates précises. En conséquence, cette transition du dictionnaire vers un encodage des données donne progressivement naissance à un objet hybride et nativement numérique, dépassant largement les capacités d’un simple dépôt sur la plateforme Hypothèses.org.
Effectivement, l’indexation multiscalaire des notices et de leur contenu permet de dépasser la condition traditionnelle du dictionnaire (structuré autour du duo “clé-valeur9”) pour donner lieu au développement d’une application web décuplant les capacités exploratoires du projet. Effectivement, par cette approche nouvelle de l’objet dictionnaire, qui empreinte aux principes de la lecture distante (distant reading10), nous entendons tisser des réseaux de connaissances internes et externes qui ne peuvent être détectés par la simple lecture linéaire d’une notice. A cet égard, les notices se citant régulièrement entre-elles, il est possible de visualiser les réseaux de connaissances produits au sein du dictionnaire. En s’appuyant sur les techniques de l’analyse de réseau appliquées aux sciences historiqes11, il est possible de gérer le graphe suivant :
Chaque noeud du réseau correspond à une notice dont les relations (en l’occurence les citations) forment le maillage du réseau. Cette nouvelle forme d’exploration du dictionnaire nourris la réflexion scientifique sur les notions centrales du dictionnaire. Ainsi, au sein de l’échantillon de la lettre A, il n’est pas surprenant voir surgir l’importance de la notice “Aides”, puisqu’elle traîte des taxes indirectes globales. En outre, il sera possible d’explorer le dictionnaire directement à partir de ce graphe, car en cliquant sur les noeuds, l’utilisateur sera en mesure d’accéder directement à la notice et aux citations associées.
Dans un dernier temps, les réseaux de connaissances que tisse le dictionnaire sont aussi externes dans le contexte du web de données. Le principe du web de données ou web sémantique repose sur la nécessité de décloisonner les silos de données et de rendre les productions scientifiques interopérables par l’attribution et l’alignement sur des référentiels pérennes12). Dans cette perspective, l’ensemble des entités nommées indexées sont soit alignées sur un référentiel Dicotopo13, soit Geonames14 (ou Wikidata15). En conséquence, par l’insertion dans le web de données, le projet entend d’une part décloisonner et ouvrir les données produites, et d’autre part donner de la visibilité au travail des historiens associés. En somme, par l’insertion dans le web sémantique et l’indexation exploratoire des éléments du dictionnaire, il nous semble que le projet voit naitre un nouvel objet hybride, à la confluence de la base de donnée et de l’oeuvre organique. C’est ici tout l’apport des humanités numériques au projet que nous espérons avoir pu mettre en évidence au cours de ce billet introductif.