Prestilien Djionang Pindoh ; Paulin Melatagia Yonta - Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au Fongbe

arima:13416 - Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, 11 février 2025, Volume 42 - Numéro spécial CRI 2023 - 2024 - https://doi.org/10.46298/arima.13416
Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au FongbeArticle

Auteurs : Prestilien Djionang Pindoh 1; Paulin Melatagia Yonta ORCID2,1

  • 1 Département d'Informatique [Yaoundé I]
  • 2 Unité de modélisation mathématique et informatique des systèmes complexes [Bondy]

Les langues sous-dotées rencontrent d'importants obstacles en reconnaissance vocale en raison du manque de ressources et de la disponibilité limitée des données, ce qui freine leur développement et leur adoption à grande échelle. Cet article présente un modèle d'apprentissage de représentations qui s'appuie sur des cadres existants basés sur des techniques d'apprentissage auto-supervisé — en particulier le Contrastive Predictive Coding (CPC), wav2vec, et une variante bidirectionnelle du CPC — en les intégrant à des approches d'apprentissage multilingue. Nous appliquons ce modèle à trois langues africaines : le wolof, le swahili et le fongbe. L'évaluation des représentations obtenues dans une tâche en aval, la reconnaissance automatique de la parole, en utilisant une architecture similaire à DeepSpeech, montre la capacité du modèle à discerner des caractéristiques linguistiques propres à chaque langue. Les résultats démontrent des performances prometteuses, avec des taux d'erreur de mots (WER) de 61 % pour le fongbe, 72 % pour le wolof et 88 % pour le swahili. Ces résultats soulignent le potentiel de notre approche pour faire progresser les capacités de reconnaissance vocale des langues sous-dotées, en particulier dans le contexte linguistique africain.


Volume : Volume 42 - Numéro spécial CRI 2023 - 2024
Publié le : 11 février 2025
Accepté le : 17 janvier 2025
Soumis le : 16 avril 2024
Mots-clés : Self-supervised learning,Multilingual representation learning,Automatic speech recognition,Under-resourced languages,Apprentissage auto-supervisé,Apprentissage de représentations multilingues,Reconnaissance automatique de la parole,Langues peu dotées,[INFO]Computer Science [cs]

Statistiques de consultation

Cette page a été consultée 40 fois.
Le PDF de cet article a été téléchargé 18 fois.