Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au Fongbe

Prestilien Djionang Pindoh; Paulin Melatagia Yonta

doi:10.46298/arima.13416

Prestilien Djionang Pindoh ; Paulin Melatagia Yonta - Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au Fongbe

arima:13416 - Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, 11 février 2025, Volume 42 - Numéro spécial CRI 2023 - 2024/2025 - https://doi.org/10.46298/arima.13416

Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au FongbeArticle

Auteurs : Prestilien Djionang Pindoh ¹; Paulin Melatagia Yonta ^2,¹

1 Département d'Informatique [Yaoundé I]
2 Unité de modélisation mathématique et informatique des systèmes complexes [Bondy]

Les langues sous-dotées rencontrent d'importants obstacles en reconnaissance vocale en raison du manque de ressources et de la disponibilité limitée des données, ce qui freine leur développement et leur adoption à grande échelle. Cet article présente un modèle d'apprentissage de représentations qui s'appuie sur des cadres existants basés sur des techniques d'apprentissage auto-supervisé — en particulier le Contrastive Predictive Coding (CPC), wav2vec, et une variante bidirectionnelle du CPC — en les intégrant à des approches d'apprentissage multilingue. Nous appliquons ce modèle à trois langues africaines : le wolof, le swahili et le fongbe. L'évaluation des représentations obtenues dans une tâche en aval, la reconnaissance automatique de la parole, en utilisant une architecture similaire à DeepSpeech, montre la capacité du modèle à discerner des caractéristiques linguistiques propres à chaque langue. Les résultats démontrent des performances prometteuses, avec des taux d'erreur de mots (WER) de 61 % pour le fongbe, 72 % pour le wolof et 88 % pour le swahili. Ces résultats soulignent le potentiel de notre approche pour faire progresser les capacités de reconnaissance vocale des langues sous-dotées, en particulier dans le contexte linguistique africain.

https://doi.org/10.46298/arima.13416

Source : HAL:hal-04547298v3

Volume : Volume 42 - Numéro spécial CRI 2023 - 2024/2025

Publié le : 11 février 2025

Accepté le : 17 janvier 2025

Soumis le : 16 avril 2024

Mots-clés : Self-supervised learning,Multilingual representation learning,Automatic speech recognition,Under-resourced languages,Apprentissage auto-supervisé,Apprentissage de représentations multilingues,Reconnaissance automatique de la parole,Langues peu dotées,[INFO]Computer Science [cs]

Licence : Attribution 4.0 International (CC BY 4.0)

Références bibliographiques

Partager et exporter

Statistiques de consultation

Cette page a été consultée 288 fois.

Le PDF de cet article a été téléchargé 147 fois.