Navigation – Plan du site
La Lettre n° 50 | Échos de la recherche
Bootphon
Crédits : Nadia Phaneuf
par Emmanuel Dupoux

Bootphon

A computational approach to early language bootstrapping

Au cours de leur première année de vie, les nourrissons se sensibilisent à leur langue maternelle à une vitesse phénoménale, sans supervision directe de la part de leurs parents. Si les recherches en psychologie expérimentale ont, au cours des trente dernières années, établi les grandes lignes de ce processus d'acquisition, on comprend encore très peu les mécanismes cognitifs qui rendent cette acquisition possible. En particulier, aucune théorie n'arrive à expliquer comment les deux composantes élémentaires de la langue que sont la structure sonore et la structure lexicale semblent apprises, non pas l'une après l'autre, mais simultanément par l'enfant.

Le projet Bootphon a pour objectif de construire une théorie quantitative de cet apprentissage précoce en s'appuyant sur des outils issus des sciences de l'ingénieur (traitement du signal, modèles probabilistes), et s'attache à élaborer des algorithmes d'apprentissage statistiques non supervisés visant à découvrir la structure phonologique et lexicale dans plusieurs langues typologiquement distinctes pour lesquelles on dispose de corpus de parole spontanée suffisamment étendus (quatre cents heures, français, japonais, hollandais).

L'objectif de ce travail théorique est de reproduire artificiellement, et par là même éclairer les grandes acquisitions de l'enfant, pendant sa première année de vie. Cette démarche « synthétique » est complétée par une validation (ou réfutation) empirique des hypothèses mises à jour, en utilisant les méthodes traditionnelles de la psychologie du développement (tests comportementaux, mesure des fixations oculaires, imagerie cérébrale non invasive par EEGs ou fNRIS, collecte et analyse de corpus d'interaction parent-enfant).

Ce programme se déroule sur cinq ans, et implique de nombreuses collaborations avec des collègues issus de différentes branches des sciences formelles (traitement automatique des langues, apprentissage machine, mathématiques appliquées), des sciences du langage (psycholinguistique, phonologie et phonétique, socio-linguistique, linguistique computationnelle) et des sciences expérimentales (psychologie cognitive, psychologie du développement, neurosciences cognitives), en France, en Europe et aux États-Unis.

Participants : deux doctorants, trois post-doctorants, un ingénieur de recherche, un assistant de recherche. Recherche financée par l'ERC de septembre 2012 à août 2017.