Une mesure sémantique pour la détection de valeurs aberrantes dans un graphe de connaissances

Bara Diop; Cheikh Talibouya Diop; Lamine Diop

doi:10.46298/arima.8679

Bara Diop ; Cheikh Talibouya Diop ; Lamine Diop - Une mesure sémantique pour la détection de valeurs aberrantes dans un graphe de connaissances

arima:8679 - Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, 11 avril 2022, Volume 35 - Numéro spécial Data Intelligibility, Business Intelligence and Semantic Web - 2022 - https://doi.org/10.46298/arima.8679

Une mesure sémantique pour la détection de valeurs aberrantes dans un graphe de connaissancesArticle

Auteurs : Bara Diop ¹; Cheikh Talibouya Diop ¹; Lamine Diop ^2,³

1 Université Gaston Berger de Saint-Louis Sénégal [UGB]
2 BDTLN - Bases de données et traitement des langues naturelles
3 Bases de données et traitement des langues naturelles

soumission à Episciences

[en]
Nowadays, there is a growing interest in data mining and information retrieval applications from Knowledge Graphs (KG). However, the latter (KG) suffers from several data quality problems such as accuracy, completeness, and different kinds of errors. In DBpedia, there are several issues related to data quality. Among them, we focus on the following: several entities are in classes they do not belong to. For instance, the query to get all the entities of the class Person also returns group entities, whereas these should be in the class Group. We call such entities “outliers.” The discovery of such outliers is crucial for class learning and understanding. This paper proposes a new outlier detection method that finds these entities. We define a semantic measure that favors the real entities of the class (inliers) with positive values while penalizing outliers with negative values and improving it with the discovery of frequent and rare itemsets. Our measure outperforms FPOF (Frequent Pattern Outlier Factor) ones. Experiments show the efficiency of our approach.

[fr]
De nos jours, il existe un intérêt croissant pour les applications d'exploration de données et de recherche d'informations à partir de graphes de connaissances (KG). Cependant, ces derniers (KG) souffrent de plusieurs problèmes de qualité de données tels que la précision, la complétude et différents types d'erreurs. Dans DBpedia, il existe plusieurs problèmes liés à la qualité des données. Parmi eux, nous nous concentrons sur le suivant: plusieurs entités se trouvent dans des classes auxquelles elles n'appartiennent pas. Par exemple, la requête pour obtenir toutes les entités de la classe Person retourne aussi les entités de groupe, tandis que celles-ci devraient être dans la classe Group. Nous appelons ces entités "outliers". La découverte de ces entités mal classées est cruciale pour l'apprentissage et la compréhension des classes. Cet article propose une nouvelle méthode de détection des outliers qui permet de trouver ces entités. Nous définissons une mesure sémantique qui favorise les entités réelles de la classe (inliers) avec des valeurs positives tout en pénalisant les outliers avec des valeurs négatives et nous l'améliorons avec la découverte d'itemsets fréquents et rares. Notre mesure est plus performante que celle du FPOF (Frequent Pattern Outlier Factor). Les expérimentations prouvent l'efficacité de notre approche.

https://doi.org/10.46298/arima.8679

Source : HAL:hal-03415728v3

Volume : Volume 35 - Numéro spécial Data Intelligibility, Business Intelligence and Semantic Web - 2022

Publié le : 11 avril 2022

Accepté le : 20 mars 2022

Soumis le : 5 novembre 2021

Mots-clés : [INFO]Computer Science [cs], [en] Knowledge graph, Pattern Mining, Itemset, Outlier Detection

Licence : Hal authorisation v1

Références bibliographiques

Partager et exporter

Statistiques de consultation

Cette page a été consultée 1089 fois.

Le PDF de cet article a été téléchargé 824 fois.