Identification thématique Arabe basée sur des études empiriques des topic models

Marwa Naili; Anja Chaibi; Henda Ghézala

doi:10.46298/arima.3102

Marwa Naili ; Anja Chaibi ; Henda Ghézala - Identification thématique Arabe basée sur des études empiriques des topic models

arima:3102 - Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, 3 août 2017, Volume 27 - 2017 - Numéro spécial CARI 2016 - https://doi.org/10.46298/arima.3102

Identification thématique Arabe basée sur des études empiriques des topic modelsArticle

Auteurs : Marwa Naili ¹; Anja Chaibi ¹; Henda Ghézala ¹

1 Laboratoire de recherche en Génie Logiciel, Applications distribuées, Systèmes décisionnels et Imagerie intelligente [Manouba]

Cet article met l'accent sur l'identification thématique pour la langue arabe basée sur les topic models. Nous étudions l'Allocation de Dirichlet Latente (LDA) comme une méthode non supervisée pour l'identification thématique. Ainsi, une étude approfondie de LDA a été effectuée à deux niveaux: le processus de lemmatisation et le choix des hyper-paramètres. Pour le premier niveau, nous étudions l'effet des différents lemmatiseurs sur LDA. Pour le deuxième niveau, nous nous focalisons sur les hyper-paramètres α et β de LDA et leurs impacts sur l'identification. Cette étude montre que LDA est une méthode efficace pour l'identification thématique Arabe surtout avec le bon choix des hyper-paramètres. Un autre résultat important est l'impact élevé de l'algorithme de lemmatisation sur l'identification thématique.

https://doi.org/10.46298/arima.3102

Source : HAL:hal-01444574v2

Volume : Volume 27 - 2017 - Numéro spécial CARI 2016

Publié le : 3 août 2017

Accepté le : 3 juillet 2017

Soumis le : 2 août 2017

Mots-clés : Arabic stemmers,Latent Dirichlet Allocation,Topic identification,LDA hyper- parameters α and β,Identification thématique,Topic models,Allocation de Dirichlet Latente,hyper-paramètres α et β de LDA,lemmatiseurs Arabes,ACM : I.2.7.6,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing

Licence : Attribution - Pas de Modification 4.0 International (CC BY-ND 4.0)

Références bibliographiques

5 Documents citant cet article

Partager et exporter

Statistiques de consultation

Cette page a été consultée 755 fois.

Le PDF de cet article a été téléchargé 1363 fois.