Navigation – Plan du site
La Lettre n° 38 | Réflexion sur...
par Marjorie Burghart et Nicole Dufournaud

Édition électronique de sources : XML et Text Encoding Initiative (TEI) à l'École

L'irruption de l'édition électronique dans l'éventail des outils informatiques au service des chercheurs est sans doute une des grandes nouveautés des dernières années. Sans parler de la diffusion en ligne de revues et ouvrages scientifiques, opérée par les éditeurs, elle offre de nouvelles perspectives non seulement pour la diffusion des sources de la recherche, mais aussi pour leur exploitation par nos équipes de recherche. Revues.org s'oriente vers l'utilisation de la TEI comme format interne pour les monographies (voir les réalisations des Presses universitaires de Caen). Les techniques d'édition électronique permettent en effet de dépasser certaines limites des outils traditionnellement utilisés par les chercheurs, pour répondre aux besoins des SHS.
Les outils de traitement de texte (comme Word) ou les formats tels que PDF ou HTML sont centrés sur la mise en forme, l'aspect du texte; ils n'accordent aucune place à la modélisation de sa structure et de son contenu. Les bases de données sont utiles pour dépouiller un document ou un corpus, mais présentent des limites gênantes pour les données textuelles: le plus souvent, le lien entre l'enregistrement dans la base de données et l'emplacement de l'information dans le texte n'est pas directement reconstructible. Pour l'édition électronique de sources, il est donc nécessaire d'utiliser de nouvelles technologies, et plus précisément XML et la Text Encoding Initiative (TEI). Car si l’on considère, avec Olivier Guyotjeannin et Gautier Poupeau, que « l’édition électronique change tout et rien » (O. Guyotjeannin et G. Poupeau, « Le projet d’édition électronique du Cartulaire blanc de Saint-Denis et projets électroniques de l’École nationale des chartes », dans Le Médiéviste et l’ordinateur, 42), il faut bien admettre que ce sont surtout XML et la TEI qui « changent tout » !
Le format libre XML – qui décrit les données dans un document, à l’aide de balises organisées dans une arborescence facilement interopérable et très orienté vers la publication Internet permet la séparation du contenu et de sa présentation, tandis que la TEI offre un cadre méthodologique, appuyé sur une longue expertise et une communauté d'utilisateurs très active. Depuis sa création en 1987, la TEI est parvenue au rang de standard international et interdisciplinaire pour l'édition électronique en sciences humaines. Elle propose un schéma d'encodage pour la création de documents XML prenant en compte différentes approches du document (analyse littéraire ou historique, linguistique et analyse morpho-syntaxique, édition diplomatique, etc). La TEI permet d'encoder un texte selon trois niveaux différents :

- on peut ne s’intéresser qu'à l’aspect, aux caractéristiques externes des documents (codicologie, manques, foliotation, linéation, etc.), aux aspects paléographiques d'une source (les abréviations utilisées, l’aspect des lettres, etc.), bref toutes les informations utiles pour établir une transcription diplomatique ;

- à un deuxième niveau, le balisage peut être sémantique : repérage des toponymes, des anthroponymes, des dates, etc. ;

- enfin, un balisage analytique est possible : le chercheur va alors appliquer aux parties du texte sa propre grille d’analyse (à l'aide d'une taxonomie, d'un thesaurus, etc.).

La TEI à l'EHESS

L'édition électronique de sources en XML / TEI est présente à l'École à travers les activités de deux laboratoires: le CIHAM (avec le pôle de Lyon de l'EHESS) et le Grihl, équipe du CRH.

Au CIHAM, les premiers travaux remontent à 2002, lorsque l'utilisation d'XML/TEI fut décidée pour la publication d'un corpus de sermons latins de Jacques de Voragine, annoté par une équipe internationale sous la direction du Pr. Nicole Bériou, donnant naissance au site Sermones.net. Un corpus texte/images de documents d'archives, regroupant à l'heure actuelle plus de 150 rouleaux de comptes de châtellenies savoyardes (xiiie – xve siècles), est en cours d'édition et doit être amplifié et élargi dans le cadre d'une ANR débutant cette année. Plus récemment, une version électronique des Vitae Paparum Avenionensium d'Étienne Baluze a vu le jour. En parallèle, l'expertise XML/TEI développée au pôle de Lyon a été mise à profit pour l'édition électronique du Dialogus miraculorum de Césaire de Heisterbach, dans une collaboration avec le Gahom. À partir de 2011, cette dynamique sera soutenue par la création au sein du CIHAM d'un axe transversal consacré aux humanités numériques.

Le Grihl s'intéresse aux possibilités qu'offre la TEI depuis 2008. Le projet européen European Network for Baroque Cultural Heritage (ENBaCH) dont l'EHESS pour le Grihl est le porteur français se trouve sous la responsabilité de Christian Jouhaud et Jean-Pierre Cavaillé avec le soutien de Cécile Soudan : il comprend trois projets d'édition électronique en TEI. Valérie Gratsac et Nicole Dufournaud sont en charge de l’encodage du premier manuscrit : « La vie de Messire Michel de Marillac Chevalier Garde des seaux de France Par Messire Nicolas Lefevre sieur De Lezeau Maistres des Requestes et conseiller ordinaire du Roy en son Conseil d’Estat ». Ce manuscrit a fait l'objet de plusieurs copies qui correspondent à des corrections d'épreuves successives. Il en a été retenu trois (datées de 1643 à 1662) conservées aux Archives nationales, à la Bibliothèque Sainte-Geneviève et à la Bibliothèque nationale. Utiliser la TEI permet non seulement l'édition électronique des trois différentes versionsmais aussi la navigation, l'exploration, l'extraction et la visualisation des données qui seront rendues possibles grâce à la combinaison de deux technologies différentes : la TEI et la visualisation d'informations. Par exemple, l'affichage de la chronologie des événements permettra, entre autres, une entrée innovante dans les textes.

L'adoption des nouvelles technologies du document numérique par les sciences humaines et sociales comporte plusieurs écueils. Le premier est celui de l'environnement informatique adéquat. Ces projets d'édition électronique XML/TEI ont été présentés à Xavier Mailhos, directeur de la DISITEC (Direction de l'informatique, des systèmes d'information et des technologies de la communication) à l’EHESS. En effet, ces éditions posent le problème de l'hébergement pérenne des sites mais également des choix technologiques auxquels doit procéder la direction de l'École. La mutualisation des besoins des différents groupes de recherche intéressés par l'édition électronique nécessite une collaboration entre les laboratoires et les services informatiques qui s'avère ici fructueuse. Le second écueil est la formation à la TEI et aux outils appropriés pour la mise en œuvre de ces projets dans le domaine des Digital Humanities. À notre connaissance, deux institutions françaises initient à la TEI dans le cadre d'une formation en master : le Centre d'études supérieures de la Renaissance à Tours et l'École nationale des Chartes à Paris. Depuis 2008, elles organisent chacune une session annuelle de formation professionnelle pour les chercheur(e)s et les ingénieur(e)s. Ponctuellement, en France, des journées d'études sont organisées autour de l'édition électronique et particulièrement de la TEI, comme celle de MUTEC en juin 2010. À l'École, trois séminaires sur les Digital Humanities sont programmés en 2010/2011 : à Paris, le plus ancien est celui de Marin Dacos et Pierre Mounier sur « Les transformations numériques du rapport aux savoirs » ; le second est celui d'Aurélien Berra sur « Les textes anciens » ; à Lyon, celui de Marjorie Burghart s'intéresse à « Édition électronique et sources médiévales ». Ces séminaires participent à la diffusion des nouvelles technologies comme la TEI. Ces formations, séminaires et journées d'études peuvent s'appuyer sur des supports électroniques qui viennent en aide aux utilisateurs de la TEI. Les Guidelines de plusieurs centaines de pages détaillent l'utilisation du schéma : elles sont accessibles en ligne. Des listes de diffusion nationales – [tei-fr] – et internationales – TEI-List – permettent aux utilisateurs de communiquer entre eux et de recevoir une aide ponctuelle mais limitée. Enfin les utilisateurs peuvent se référer soit à des articles, par exemple http://guides-reperes.mutec-shs.fr/node/9, http://halshs.archives-ouvertes.fr/halshs-00512530/fr/ ou http://dn.e-revues.com/article.jsp?articleId=9046, soit à des projets en ligne, par exemple http://mariage.uvic.ca/, http://www.unicaen.fr/services/puc/sources/gsp/,  http://vangoghletters.org/vg/ ou http://bfm.ens-Lyon.fr/. Le dernier écueil reste la gestion de projets souvent complexes qui demanderait une expertise préalable avant de se lancer dans une telle aventure dont l'aspect « chronophage » et le coût ne sont pas à ignorer.

Si les difficultés informatiques à mettre en œuvre de tels projets d'édition électronique semblent s'estomper, avouons que ces nouvelles technologies restent absconses pour des chercheur(e)s et des ingénieur(e)s néophytes mais animés par une volonté de mieux connaître les possibilités qu’offre l'édition électronique. Gageons que cet article d’information sur la TEI soit le premier d’une longue série.