Application du modèle de représentation acoustique multilingue XLSR pour la transcription de l'Ewondo

Nzeuhang Yannick Yomie; Yonta Paulin Melatagia; Lecouteux Benjamin

doi:10.46298/arima.13621

Nzeuhang Yannick Yomie ; Yonta Paulin Melatagia ; Lecouteux Benjamin - Application du modèle de représentation acoustique multilingue XLSR pour la transcription de l'Ewondo

arima:13621 - Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, 28 octobre 2024, Volume 42 - Numéro spécial CRI 2023 - 2024/2025 - https://doi.org/10.46298/arima.13621

Application du modèle de représentation acoustique multilingue XLSR pour la transcription de l'EwondoArticle

Auteurs : Nzeuhang Yannick Yomie ¹; Yonta Paulin Melatagia ¹; Lecouteux Benjamin ²

[en]
Recently popularized self-supervised models appear as a solution to the problem of low data availability via parsimonious learning transfer. We investigate the effectiveness of these multilingual acoustic models, in this case wav2vec 2.0 XLSR-53 and wav2vec 2.0 XLSR-128, for the transcription task of the Ewondo language (spoken in Cameroon). The experiments were conducted on 11 minutes of speech constructed from 103 read sentences. Despite a strong generalization capacity of multilingual acoustic model, preliminary results show that the distance between XLSR embedded languages (English, French, Spanish, German, Mandarin, . . . ) and Ewondo strongly impacts the performance of the transcription model. The highest performances obtained are around 69% on the WER and 28.1% on the CER. An analysis of these preliminary results is carried out andthen interpreted; in order to ultimately propose effective ways of improvement.

[fr]
Les modèles auto-supervisés récemment popularisés apparaissent comme une solution au problème de la faible disponibilité des données grâce à un transfert d'apprentissage parcimonieux. Nous étudions l'efficacité de ces modèles acoustiques multilingues, en l'occurrence wav2vec 2.0 XLSR-53 et wav2vec 2.0 XLSR-128, pour la tâche de transcription de la langue Ewondo (parlée au Cameroun). Les expériences ont été menées sur 11 minutes de discours construits à partir de 103 phrases lues. Malgré une forte capacité de généralisation du modèle acoustique multilingue, les résultats préliminaires montrent que la distance entre les langues intégrées dans le XLSR (anglais, français, espagnol, allemand, mandarin, . . .) et l'ewondo a un impact important sur la performance du modèle de transcription. Les performances les plus élevées obtenues sont de l'ordre de 69% pour le WER et de 28.1% pour le CER. Une analyse de ces résultats préliminaires est effectuée et interprétée afin de proposer des pistes d'amélioration efficaces.

https://doi.org/10.46298/arima.13621

Source : HAL:hal-04484325v5

Volume : Volume 42 - Numéro spécial CRI 2023 - 2024/2025

Publié le : 28 octobre 2024

Accepté le : 9 septembre 2024

Soumis le : 20 mai 2024

Mots-clés : [INFO]Computer Science [cs], [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [en] Low resource language, Self-supervised model, XLSR, Transcription, Ewondo

Licence : Attribution 4.0 International (CC BY 4.0)

Financement :

Source : HAL

European Union’s Horizon 2020 research and innovation program under the Marie Skłodowska-Curie grant agreement No 101007666,; Financeur: European Commission

Nzeuhang Yannick Yomie ; Yonta Paulin Melatagia ; Lecouteux Benjamin - Application du modèle de représentation acoustique multilingue XLSR pour la transcription de l'Ewondo

Références bibliographiques

Partager et exporter

Statistiques de consultation