Les modèles auto-supervisés récemment popularisés apparaissent comme une solution au problème de la faible disponibilité des données grâce à un transfert d'apprentissage parcimonieux. Nous étudions l'efficacité de ces modèles acoustiques multilingues, en l'occurrence wav2vec 2.0 XLSR-53 et wav2vec 2.0 XLSR-128, pour la tâche de transcription de la langue Ewondo (parlée au Cameroun). Les expériences ont été menées sur 11 minutes de discours construits à partir de 103 phrases lues. Malgré une forte capacité de généralisation du modèle acoustique multilingue, les résultats préliminaires montrent que la distance entre les langues intégrées dans le XLSR (anglais, français, espagnol, allemand, mandarin, . . .) et l'ewondo a un impact important sur la performance du modèle de transcription. Les performances les plus élevées obtenues sont de l'ordre de 69% pour le WER et de 28.1% pour le CER. Une analyse de ces résultats préliminaires est effectuée et interprétée afin de proposer des pistes d'amélioration efficaces.