Séminaire : Apprendre un modèle de langue à partir de l'audio
Listen now
Description
Collège de France Benoît Sagot Informatique et sciences numériques (2023-2024) Année 2023-2024 Séminaire : Apprendre un modèle de langue à partir de l'audio Intervenant : Emmanuel Dupoux, directeur d'études EHESS, chercheur META Résumé La modalité orale est le canal le plus naturel pour les interactions linguistiques, mais les technologies langagières actuelles (TAL) se basent surtout sur l'écrit, nécessitant de grandes quantités de textes pour développer des modèles de langage. Même les assistants vocaux ou les systèmes de traduction de la parole utilisent le texte comme intermédiaire, ce qui est inefficace et limite la technologie aux langues dotées de ressources textuelles importantes. De plus, cela néglige les caractéristiques de la parole telles que le rythme et l'intonation. Pourtant, l'enfant arrive à apprendre sa ou ses langue(s) maternelle(s) bien avant d'apprendre à lire ou à écrire. Dans cette présentation, nous aborderons les avancées récentes en apprentissage de représentations audio qui ouvrent la voie à des applications TAL directement à partir de la parole sans aucun texte. Ces modèles peuvent capturer les nuances de la langue orale, y compris dans les dialogues. Nous discuterons également des défis techniques qui restent à relever pour reproduire un apprentissage qui approcherait celui du bébé humain. Emmanuel Dupoux Emmanuel Dupoux est professeur à l'École des hautes études en sciences sociales (EHESS) et chercheur à Meta AI Labs. Il dirige l'équipe Cognitive Machine Learning à l'École normale supérieure (ENS). Il a obtenu un doctorat en sciences cognitives (EHESS), un master en informatique (université d'Orsay) et un diplôme d'ingénieur en télécommunication (Telecom Paris). Ses recherches mêlent science du développement, neurosciences cognitives et apprentissage automatique, avec un accent sur l'ingénierie inverse du langage et du développement cognitif des nourrissons à l'aide d'apprentissage non supervisé ou faiblement supervisé. Il est lauréat d'une bourse avancée de l'ERC, et a organisé une série de compétitions internationales en apprentissage machine inspiré par l'humain (Zero Resource Speech Challenge, 2015-2021; Intphys). Il est membre du programme CIFAR LMB, a une chaire PRAIRIE et Fellow ELLIS. Il est l'auteur de 150 articles dans des revues à comité de lecture en science cognitive et technologie du langage.
More Episodes
Collège de France Benoît Sagot Informatique et sciences numériques (2023-2024) Année 2023-2024 Séminaire : L'IA axée sur les objectifs : vers des machines capables d'apprendre, de raisonner et de planifier Intervenant : Yann LeCun, Professeur invité, Collège de France, Chief AI Scientist, Meta,...
Published 02/09/24
Collège de France Benoît Sagot Informatique et sciences numériques (2023-2024) Année 2023-2024 08 - Apprendre les langues aux machines : Multimodalités : TAL et images, TAL et parole Résumé Multimodalité : TAL et images, TAL et parole. Améliorer la traduction automatique grâce au contexte,...
Published 02/09/24