Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d'enfant

Lucas Block Medin; Lucile Gelin; Thomas Pellegrini

Communication Dans Un Congrès Année : 2024

Adapting self-supervised learning for phoneme recognition in child speech

Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d'enfant

(1, 2) , (1, 2) , (2)

1
2

Lucas Block Medin

Fonction : Auteur

Lalilo [Paris]

Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio

Lucile Gelin

Fonction : Auteur
PersonId : 742641
IdHAL : lucile-gelin
ORCID : 0000-0002-5623-9438
IdRef : 263409759

Lalilo [Paris]

Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio

Thomas Pellegrini

Fonction : Auteur
PersonId : 741962
IdHAL : thomas-pellegrini
ORCID : 0000-0001-8984-1399
IdRef : 127577955

Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio

Résumé

Child speech recognition is still an underdeveloped area of research due to the lack of data and the specific difficulties of this task. Having explored various architectures for child speech recognition in previous work, in this article we tackle new self-supervised models. We first compare several Wav2vec2, HuBERT and WavLM models adapted to phoneme recognition in child speech, and continue our experiments with the best of them, a WavLM base+. We then further adapt it by unfreezing its transformer blocks during fine-tuning on child speech, which greatly improves its performance and makes it significantly outperform our base model, a Transformer+CTC. Finally, we study in detail the behaviour of these two models under the real conditions of our application, and show that WavLM base+ is more robust to various reading tasks and noise levels.

La reconnaissance de parole d’enfant est un domaine de recherche encore peu développé en raison du manque de données et des difficultés caractéristiques de cette tâche. Après avoir exploré diverses architectures pour la RAP d’enfant dans de précédents travaux, nous nous attaquons dans cet article aux nouveaux modèles auto-supervisés. Nous comparons d’abord plusieurs modèles Wav2vec2, HuBERT et WavLM adaptés superficiellement à la reconnaissance de phonèmes sur parole d’enfant, et poursuivons nos expériences avec le meilleur d’entre eux, un WavLM base+. Il est ensuite adapté plus profondément en dégelant ses blocs transformer lors de l’entraînement sur parole d’enfant, ce qui améliore grandement ses performances et le fait surpasser significativement notre modèle de base, un Transformer+CTC. Enfin, nous étudions en détail les comportements de ces deux modèles en conditions réelles de notre application, et montrons que WavLM base+ est plus robuste à diverses tâches de lecture et niveaux de bruit.

Mots clés

automatic speech recognition child speech self-supervised learning

reconnaissance automatique de la parole parole d’enfant modèles auto-supervisés

Domaines

Informatique et langage [cs.CL]

Fichier principal

3420.pdf (129.54 Ko)

Origine	Fichiers éditeurs autorisés sur une archive ouverte

Matthieu Labeau : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-04623075

Soumis le : lundi 1 juillet 2024-11:41:54

Dernière modification le : vendredi 5 juillet 2024-12:21:31

Archivage à long terme le : jeudi 3 octobre 2024-08:06:29

Dates et versions

hal-04623075 , version 1 (01-07-2024)

Licence

Paternité

Identifiants

HAL Id : hal-04623075 , version 1

Citer

Lucas Block Medin, Lucile Gelin, Thomas Pellegrini. Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d'enfant. 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024), Jul 2024, Toulouse, France. pp.231-241. ⟨hal-04623075⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS UT1-CAPITOLE IRIT IRIT-SAMOVA TALN-RECITAL IRIT-SI TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP JEP-TALN-RECITAL2024

236 Consultations

22 Téléchargements

Adapting self-supervised learning for phoneme recognition in child speech

Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d'enfant

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Relations

Exporter

Collections

Partager