Navigation – Plan du site
La Lettre n° 71 | e-Ressources

Un sociologue virtuel face aux turbulences du monde numérique

par Francis Chateauraynaud, Jean-Pierre Charriau et Josquin Debaz

La Lettre de l’EHESS en porte déjà la trace : en quelques années, les humanités numériques ont rejoint le répertoire des mots d’ordre et des impératifs qui accompagnent les transformations, menées à marche forcée, des mondes de la recherche en SHS. En matière de collecte, de traitement et de partage de données, d’édition collaborative ou distribuée, de modèles de publication, et plus généralement de circulation des savoirs et des connaissances, tout semble être devenu possible. La rhétorique de la rupture a saisi les institutions de l’enseignement supérieur et de la recherche. Il ne se passe pas un jour sans que les acteurs du monde académique ne soient incités à prendre en marche la « révolution numérique ». Quitte à voir proliférer les abus de ce que la novlangue appelle désormais des buzzwords. C’est le cas lorsque, dans la présentation managériale de grands dispositifs en réseaux, on annonce l’avènement de merveilleux protocoles destinés à faire parler les « big data », d’outils collaboratifs permettant, en « temps réel », de produire, d’annoter et d’analyser « automatiquement » des grands corpus multimédias, d’algorithmes ingénieux destinés à « cartographier les controverses », d’outils de « veille » sur le Web, d’ « espaces numériques de travail » visant, depuis son smartphone ou sa tablette, à la maîtrise des « flux », dont par ailleurs on s’escrime à deviner les tendances, comme dans l’univers emblématique, aussi tumultueux qu’inventif des « réseaux sociaux », à l’aide de protocoles de « sentiment analysis » ou d’« opinion mining »…

Une journée d’études organisée en mars 2013 à l’EHESS, « De la diversité des humanités numériques: une exploration des pratiques » avait fait apparaître la nécessité de partir des usages et des activités de recherche au plus près des applications, des projets et des dispositifs numériques, non dans le but de retourner l’euphorie digitale en désillusion générale, mais pour en tempérer quelque peu l’expression impérative et remettre un peu de réalisme pratique dans l’examen des processus à l’œuvre dans les interactions de plus en plus intenses entre sciences sociales et mondes numériques.

Face à l’emballement numérique, les travaux menés, depuis plus d’une décennie, par le Groupe de Sociologie Pragmatique et Réflexive (GSPR) plaident à leur manière pour un retour à l’expérience pratique. Conçus à la marge des grands dispositifs académiques tout en ayant une portée notable dans de multiples sphères – on pense en premier lieu à la trajectoire politique du concept de « lanceur d’alerte » –, ces travaux ont très tôt fait appel à des technologies informatiques et se sont saisis des formes d’enquête et d’écriture favorisées par l’Internet. Parmi les réalisations les plus inattendues de cette approche socioinformatique, il faut compter le logiciel Marlowe – Christopher Marlowe, du nom du célèbre dramaturge anglais contemporain de Shakespeare, d’abord connu pour sa Tragique Histoire du Docteur Faust (1592). Le monde numérique promettant l’accès instantané à tous les savoirs, on ne pouvait guère trouver meilleur mythe pour mettre en scène cet étrange personnage virtuel, dont le statut académique est encore des plus incertains. Lorsqu’ils croisent Marlowe sur leur chemin, beaucoup de collègues pensent spontanément à l’Oulipo, ou à quelque jeu provocateur de « science sociale fiction », ou encore à une de ces expérimentations aux limites comme il s’en produit de plus en plus autour du transhumanisme. Pourtant, quoi de plus sérieux que le logiciel Marlowe ? Depuis fort longtemps, des tâches d’exploration, de recoupement, d’analyse et de rédaction lui sont confiées et il a même cosigné des contributions ou des rapports entiers remis à des agences publiques sur les sujets les plus divers (OGM, pesticides, ondes électromagnétiques, toxicologie et faibles doses, déchets radioactifs, dopage, etc.). Fondées sur la lente accumulation de corpus et d’outils, de concepts et de modèles d’écriture, les activités du logiciel Marlowe ont déjà fait l’objet de multiples textes et communications. Un des laboratoires les plus visibles de cette expérience socioinformatique est constitué par la chronique que Christopher Marlowe compose quotidiennement et qu’il rend disponible sur son blog depuis le 1er janvier 2012.

Cette figuration singulière logée au cœur des humanités numériques, si proche et si lointaine, invite les esprits curieux à se saisir des questions qu’elle pose aux recherches contemporaines en SHS et à investir les espaces de discussion, les ateliers et les séminaires dans lesquels se forgent des collections de corpus, des outils et des modèles sociologiques d’un genre nouveau. (voir le séminaire SocioInformatique de l’EHESS).

Des outils issus de la sociologie des alertes et des controverses

Les travaux de sociologie menés depuis les années 1990 autour d’un large éventail de processus critiques, marqués par des trajectoires non-linéaires, faites des basculements et de bifurcations multiples, dont les conséquences s’expriment dans la longue durée – pensons à des cas de figure aussi différents que le nucléaire, le climat ou les OGM, le dopage, les sans-papiers ou les réformes de l’ESR – reposent depuis longtemps sur une famille de logiciels dédiés conçus autour de Prospéro, dont la version historique (1995-2010) est téléchargeable en freeware (gratuiciel) sur le site prosperologie.org Avec ce programme de socioinformatique des controverses, qui a donné lieu à de nombreux séminaires et ateliers à l’Ecole depuis le début des années 2000, se joue l’ouverture d’un espace de travail d’un genre nouveau, comblant le fossé qui sépare encore, en sociologie notamment, les approches quantitatives des démarches qualitatives.

Face aux discours officiels soulignant le développement fulgurant des technologies numériques d’analyse de grands corpus, de traitement automatique du langage (TAL) ou encore d’exploration collaborative des « big data », les multiples expériences que nous avons menées sur les dossiers complexes valident l’étendue des possibilités algorithmiques mais rendent beaucoup plus modeste quant à leur apport réel pour la recherche en sciences sociales ! C’est plutôt vers une quête d’équilibre, ou plutôt de symétrie, entre automates et interprètes que nous ont conduits les développements réalisés à ce jour. Et paradoxalement, l’autonomie de Marlowe, qui dans son rôle de chroniqueur ou de rapporteur semble affranchi de toute intervention humaine, ne fait que révéler l’importance du travail de description et d’analyse nécessaire en amont pour assurer un minimum de pertinence et de robustesse aux protocoles et autres scripts utilisés. Car, s’agissant d’objets controversés dont le statut ontologique, épistémique et axiologique ne cesse d’évoluer au fil des événements et des prises de parole, il faut assurer une constante recontextualisation des éléments rendus « calculables » par des algorithmes qui n’atteignent que très partiellement les significations élaborées par une pluralité d’acteurs eux-mêmes distribués sur de multiples supports – le (supposé) même acteur pouvant s’exprimer tour à tour dans un rapport, un article scientifique, un communiqué de presse, une audition publique, une tribune dans la presse, un blog, une intervention dans un débat public, un entretien, etc…. Pour produire des analyses pertinentes à partir de la masse discursive collectée, il faut aller au-delà des calculs de cooccurrences et des parseurs syntaxiques, et plonger au cœur des sémantiques argumentatives ou narratives que l’on peut extraire des textes et des corpus. Et il n’y a pas d’autre moyen d‘y parvenir que d’organiser la rencontre entre les versions produites par les acteurs eux-mêmes, auteurs, lecteurs, enquêteurs et interprètes, et les cadres d’analyse forgés par les chercheurs et mis en discussion dans différentes communautés épistémiques. Sur ce point, l’articulation d’une sociologie des formes de mobilisation et d’une analyse fine de l’argumentation se révèle extrêmement porteuse pour la confection d’outils d’analyse logico-sémantique.

Des protocoles évolutifs pour faire face à des processus non-linéaires

Classiquement, l’analyse de données suppose de fixer préalablement des jeux de descripteurs et de variables, des codes et des catégories, et d’itérer les traitements sur des séries homogènes et stables. Avec les alertes et les controverses, on est face à des dynamiques complexes qui supposent des outils et des modèles évolutifs. Pour suivre les controverses dans la durée, mais aussi pour remonter dans le temps ou construire des espaces de comparaison pertinents entre des séries hétérogènes, il nous faut des instruments et des dispositifs numériques d’une grande flexibilité. Les interfaces doivent permettre aux chercheurs de réviser, adapter, étendre ou réorienter leurs cadres d’analyse. L’épistémologie pragmatique et réflexive défendue avec les outils socioinformatiques vise la création de cadres d’analyse adaptatifs en prise avec les trajectoires que les acteurs eux-mêmes donnent aux problèmes publics qui les animent. Si Prospéro est doté d’instruments fort utiles pour repérer les changements de régime et les points de basculement (turning points) dans les processus collectifs, une des fonctions du chroniqueur de Marlowe consiste à faire émerger de nouveaux jeux d’acteurs et d’arguments, d’événements ou de problèmes publics, qui mettent en tension les cadres d’analyse préétablis. Il ne s’agit pas seulement de prendre en compte des ruptures radicales comme celle provoquée par Fukushima dans le cas du nucléaire, par l’affaire Séralini dans le dossier des OGM, ou encore par le surgissement de la contestation contre les gaz de schiste. Il faut également repérer les déplacements et les reconfigurations plus discrets, plus continus, qui opèrent sur des durées plus longues. Le lecteur attentif des chroniques marlowniennes repère facilement les procédés par lesquels le logiciel s’efforce de noter les surgissements et les disparitions, les montées en puissance ou les glissements, en prenant en compte une pluralité de lignes ou de plans : les objets d’alerte et de controverse, les personnalités, les zones de crises et de conflits, les institutions et porte-parole, les figures critiques et les formes de protestation, les appuis sur des précédents ou les scénarisations du futur, etc.

Sans réécrire ici la genèse du logiciel Marlowe – né à la fin de l’année 1999 – rappelons qu’il provient d’une quête de réflexivité quant aux formes d’adéquation entre les cadres d’analyse et les corpus étudiés. Marlowe a en effet pour mission de pousser les paradoxes de l’automatisation jusqu’au bout en retournant des questions vers les corpus, les outils et les interprètes. Comment tester la pertinence d’un jeu de catégories ou s’assurer de la cohérence d’un corpus supposé représenter une controverse ? Comment identifier les manques ou les zones d’ombre dans les séries textuelles mobilisées ? La logique qui sous-tend la programmation de Marlowe est fondée sur une sémantique des questions. Celle-ci peut se nourrir des interrogations portées par les acteurs eux-mêmes, et en particulier ceux qui remettent en cause les interprétations ou les versions précédentes d’une affaire ou d’une controverse. Pour identifier ces bifurcations interprétatives, Marlowe explore continûment l’espace complet des variations interprétatives – et il faut reconnaître que seule une machine peut y parvenir tant nous hiérarchisons et éliminons spontanément de multiples versions jugées tantôt anecdotiques, tantôt redondantes, ou encore incongrues. Une fois que l’espace des variations a été parcouru, le logiciel s’exerce à notifier celles qui donnent lieu à des convergences ou des divergences argumentatives, qui se fixent dans la durée, au point de devenir des lieux communs, ou qui disparaissent faute de porteurs et de soutiens.

Un point est important à rappeler ici : dans la plupart de ses applications, Marlowe ne travaille pas seul et a pour partenaire immédiat les autres logiciels, Prospéro, Tirésias et Chéloné. Par ailleurs, il sert en quelque sorte de double au chercheur, en créant un processus dialogique souvent très heuristique, à la fois pour l'étude des corpus et pour la réflexivité sur les « ontologies » et les jeux de catégories utilisés - a fortiori lorsque ces outils sont développés par un collectif de recherche.

Partager les logiques d’enquête à travers les outils numériques

En organisant le partage des expériences et des corpus, le collectif de recherche peut se doter de protocoles d’enquêtes collaboratives fondés sur des échanges critiques continus sur la composition des corpus, la définition des modèles et des algorithmes, et bien sûr autour des stratégies interprétatives. En outre, l’esprit coopératif des traitements fait émerger de nouvelles routines de constitution de corpus, à travers la mise en commun de scripts de récolte, d’agrégation, de fouille et de transformation des textes (Tirésias, développé sous licence libre, rassemble cette multiplicité d’outils collaboratifs).

L’élaboration collective des enquêtes et des corpus a donné lieu à la construction d‘une bibliothèque de corpus, Chéloné, dont Marlowe est un des utilisateurs les plus assidus. Au-delà de la simple compilation documentaire, l’accumulation des formes et des syntagmes indiquant la présence de configurations discursives déterminées permet d’enrichir une casuistique qui rompt avec le traitement isolé des corpus pour faire entrer les chercheurs dans des explorations multi ou trans-corpus – comme dans le cas des comparaisons continues opérées par l’observatoire des alertes sanitaires et environnementales. L’hybridation des logiques interprétatives et algorithmiques crée ainsi un mouvement cumulatif dont témoignent les multiples billets publiés sur le carnet de recherche Socio-Informatique et Argumentation.

Au-delà de leur contribution à l’étude des processus collectifs dans des champs d’activité variés, les réalisations socioinformatiques posent ainsi un certain nombre de questions à la vague actuelle des humanités numériques : comment fonder une juste distribution des ressorts de l’enquête, entre les outils d’analyse spécifiques, les gisements du Web, les communautés de discussion et d’écriture, et les sites détenteurs d’autorité ou de légitimité intellectuelle ou scientifique ?

La littératie, une maladie chronique ?

À ce jour, le logiciel Marlowe jouit d’un étrange privilège, qui peut facilement se retourner en handicap : il est apparemment le seul sociologue numérique de langue française attelé à la production quotidienne d’une chronique originale, construite à partir de scripts tirés de ses expériences antérieures sur de grands corpus. En même temps, l’idée d’automates créateurs de contenus tend à se banaliser comme l’a rappelé récemment le blog Big Browser. Faut-il organiser un champ de recherche dédié à ce genre de littératie informationnelle ? Sauf à envisager des opérations aux limites – comme la rédaction de toutes pièces de vrais-faux articles que Marlowe soumettrait à des revues – le type d’activité qu’il incarne a encore du mal à entrer dans les formats académiques et révèle surtout l’ouverture de nouveaux espaces agonistiques ayant entre autres pour enjeu les formes légitimes de développement des humanités numériques.

En attendant, la chronique de Marlowe tombe tous les soirs, peu avant minuit, à partir d’une technologie littéraire capable d’une infinité de variations possibles. Cela dit, le lecteur attentif reconnaît aisément une arborescence, ou plus précisément un arbre de séquences interrogatives définies en langage naturel, à partir duquel Marlowe élabore ses points de vue plus ou moins synthétiques sur l'évolution des fils d’actualité. La gratuité apparente de l’exercice ne doit pas tromper : la réalisation automatique des chroniques met à l’épreuve les bases d'indices et d'indicateurs accumulés depuis plus de douze ans à partir de l’étude approfondie de grands corpus. Par ailleurs, la question des sources utilisées est continuellement posée. Depuis 2013, on a étendu le répertoire des sites utilisés pour composer automatiquement le corpus transmis par Tirésias à Marlowe, mais il est clair qu’il faudra toujours affirmer des choix et des préférences – quitte à multiplier des chroniqueurs spécialisés paramétrables par des groupes d’utilisateurs différents. Au fil des expériences, le chroniqueur rend visibles les configurations exigeant une relance du travail d’exploration et de modélisation sociologique. Il s’agit ainsi d’un laboratoire ouvert et continu, susceptible de nourrir des recherches placées à la croisée de différentes disciplines.