Nzeuhang Yannick Yomie ; Yonta Paulin Melatagia ; Lecouteux Benjamin - Application of the multilingual acoustic representation model XLSR for the transcription of Ewondo

arima:13621 - Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, October 28, 2024, Volume 42 - Special issue CRI 2023 - 2024/2025 - https://doi.org/10.46298/arima.13621
Application of the multilingual acoustic representation model XLSR for the transcription of EwondoArticle

Authors: Nzeuhang Yannick Yomie 1; Yonta Paulin Melatagia 1; Lecouteux Benjamin ORCID2

[en]
Recently popularized self-supervised models appear as a solution to the problem of low data availability via parsimonious learning transfer. We investigate the effectiveness of these multilingual acoustic models, in this case wav2vec 2.0 XLSR-53 and wav2vec 2.0 XLSR-128, for the transcription task of the Ewondo language (spoken in Cameroon). The experiments were conducted on 11 minutes of speech constructed from 103 read sentences. Despite a strong generalization capacity of multilingual acoustic model, preliminary results show that the distance between XLSR embedded languages (English, French, Spanish, German, Mandarin, . . . ) and Ewondo strongly impacts the performance of the transcription model. The highest performances obtained are around 69% on the WER and 28.1% on the CER. An analysis of these preliminary results is carried out andthen interpreted; in order to ultimately propose effective ways of improvement.

[fr]
Les modèles auto-supervisés récemment popularisés apparaissent comme une solution au problème de la faible disponibilité des données grâce à un transfert d'apprentissage parcimonieux. Nous étudions l'efficacité de ces modèles acoustiques multilingues, en l'occurrence wav2vec 2.0 XLSR-53 et wav2vec 2.0 XLSR-128, pour la tâche de transcription de la langue Ewondo (parlée au Cameroun). Les expériences ont été menées sur 11 minutes de discours construits à partir de 103 phrases lues. Malgré une forte capacité de généralisation du modèle acoustique multilingue, les résultats préliminaires montrent que la distance entre les langues intégrées dans le XLSR (anglais, français, espagnol, allemand, mandarin, . . .) et l'ewondo a un impact important sur la performance du modèle de transcription. Les performances les plus élevées obtenues sont de l'ordre de 69% pour le WER et de 28.1% pour le CER. Une analyse de ces résultats préliminaires est effectuée et interprétée afin de proposer des pistes d'amélioration efficaces.


Volume: Volume 42 - Special issue CRI 2023 - 2024/2025
Published on: October 28, 2024
Accepted on: September 9, 2024
Submitted on: May 20, 2024
Keywords: [INFO]Computer Science [cs], [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [en] Low resource language, Self-supervised model, XLSR, Transcription, Ewondo
Funding:
    Source : HAL
  • European Union’s Horizon 2020 research and innovation program under the Marie Skłodowska-Curie grant agreement No 101007666,; Funder: European Commission

Consultation statistics

This page has been seen 496 times.
This article's PDF has been downloaded 238 times.