Prestilien Djionang Pindoh ; Paulin Melatagia Yonta - Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au Fongbe

arima:13416 - Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, 11 février 2025, Volume 42 - Numéro spécial CRI 2023 - 2024/2025 - https://doi.org/10.46298/arima.13416
Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au FongbeArticle

Auteurs : Prestilien Djionang Pindoh 1; Paulin Melatagia Yonta ORCID2,1

  • 1 Département d'Informatique [Yaoundé I]
  • 2 Unité de modélisation mathématique et informatique des systèmes complexes [Bondy]

soumission à Episciences

[en]
Under-resourced languages encounter substantial obstacles in speech recognition owing to the scarcity of resources and limited data availability, which impedes their development and widespread adoption. This paper presents a representation learning model that leverages existing frameworks based on self-supervised learning techniques—specifically, Contrastive Predictive Coding (CPC), wav2vec, and a bidirectional variant of CPC—by integrating them with multilingual learning approaches. We apply this model to three African languages: Wolof, Swahili, and Fongbe. Our evaluation of the resulting representations in a downstream task, automatic speech recognition, utilizing an architecture analogous to DeepSpeech, reveals the model’s capacity to discern language specific linguistic features. The results demonstrate promising performance, achieving Word Error Rates (WER) of 61% for Fongbe, 72% for Wolof, and 88% for Swahili. These findings underscore the potential of our approach in advancing speech recognition capabilities for under-resourced languages, particularly within the African linguistic landscape.

[fr]
Les langues sous-dotées rencontrent d'importants obstacles en reconnaissance vocale en raison du manque de ressources et de la disponibilité limitée des données, ce qui freine leur développement et leur adoption à grande échelle. Cet article présente un modèle d'apprentissage de représentations qui s'appuie sur des cadres existants basés sur des techniques d'apprentissage auto-supervisé — en particulier le Contrastive Predictive Coding (CPC), wav2vec, et une variante bidirectionnelle du CPC — en les intégrant à des approches d'apprentissage multilingue. Nous appliquons ce modèle à trois langues africaines : le wolof, le swahili et le fongbe. L'évaluation des représentations obtenues dans une tâche en aval, la reconnaissance automatique de la parole, en utilisant une architecture similaire à DeepSpeech, montre la capacité du modèle à discerner des caractéristiques linguistiques propres à chaque langue. Les résultats démontrent des performances prometteuses, avec des taux d'erreur de mots (WER) de 61 % pour le fongbe, 72 % pour le wolof et 88 % pour le swahili. Ces résultats soulignent le potentiel de notre approche pour faire progresser les capacités de reconnaissance vocale des langues sous-dotées, en particulier dans le contexte linguistique africain.


Volume : Volume 42 - Numéro spécial CRI 2023 - 2024/2025
Publié le : 11 février 2025
Accepté le : 17 janvier 2025
Soumis le : 16 avril 2024
Mots-clés : [INFO]Computer Science [cs], [en] Self-supervised learning, Multilingual representation learning, Automatic speech recognition, Under-resourced languages; [fr] Apprentissage auto-supervisé, Apprentissage de représentations multilingues, Reconnaissance automatique de la parole, Langues peu dotées

Statistiques de consultation

Cette page a été consultée 364 fois.
Le PDF de cet article a été téléchargé 165 fois.