Ce papier décrit trois études, à caractère principalement qualitatif, échelonnées sur une période de cinq ans, ayant pour but d’analyser des données exploitées dans diverses organisations Sud Africaines. L’objectif était d’acquérir une plus grande compréhension des problèmes auxquels les participants eurent à faire face dans le processus d’exploitation de données. Des interviews très élaborées furent utilisées. L’accent fut plutôt mis sur les problèmes d’origine commerciales et non pas sur les aspects technologiques et algorithmiques. Durant le cours de nos recherches, des progrès concrets furent réalises et un modèle pour l’exploitation de données fut proposé.
Une méthodologie d'extraction automatique de motifs répétés dans des séquences temporelles est présentée, dédiée en particulier à l'analyse de séquences musicales. L'approche initiale consiste en une recherche de motifs fermés dans un espace paramétrique multidimensionnel. Il est montré que ce premier mécanisme doit être articulé avec un système de découverte de motifs périodiques, ce qui implique un parcours strictement chronologique de la séquence. Cette modélisation permet d'éviter un filtrage global des patterns, et donc d'obtenir des résultats présentant une richesse et une pertinence élevée. La modélisation a été intégrée au sein d'un projet collaboratif entre ethnomusicologie, sciences cognitives et informatique, dédié à l'étude de la musique modale tunisienne.
One-class classifiers employing for training only the data from one class are justified when the data from other classes is difficult to obtain. In particular, their use is justified in mobile-masquerader detection, where user characteristics are classified as belonging to the legitimate user class or to the impostor class, and where collecting the data originated from impostors is problematic. This paper systematically reviews various one-class classification methods, and analyses their suitability in the context of mobile-masquerader detection. For each classification method, its sensitivity to the errors in the training set, computational requirements, and other characteristics are considered. After that, for each category of features used in masquerader detection, suitable classifiers are identified.
Dans cet article nous présentons un modèle hybride de segmentation et classification du contenu d'images de documents. Chaque image est segmentée en trois types de régions: graphiques, textes et espaces. L'image de chaque document est subdivisée en blocs; pour chacun de ces blocs, cinq caractéristiques sont extraites de leur Matrice de Co-occurrence de leur niveaux de gris. Les blocs sont ensuite regroupés en trois classes en utilisant l'algorithme du K-means. Les blocs connectés sont fusionnés pour former un ensemble de régions homogènes. Des règles heuristiques sont ensuite utilisées pour donner un label à chacune des trois classes. Des expérimentations ont été effectuées avec des images scannées de journaux et des images de la base de données documentaire MediaTeam
Artificial neural networks (ANNs) have been widely applied in data mining as a supervised classification technique. The accuracy of this model is mainly provided by its high tolerance to noisy data as well as its ability to classify patterns on which they have not been trained. Moreover, the performance to ANN based models mainly depends both on the ANN parameters and on the quality of input variables. Whereas, an exhaustive search on either appropriate parameters or predictive inputs is very computationally expansive. In this paper, we propose a new hybrid model based on genetic algorithms and artificial neural networks. Our evolutionary classifier is capable of selecting the best set of predictive variables, then, searching for the best neural network classifier and improving classification and generalization accuracies. The designated model was applied to the problem of bankruptcy forecasting, experiments have shown very promising results for the bankruptcy prediction in terms of predictive accuracy and adaptability.
L’échantillonnage pour le minage de large ensemble de données est important pour au moins deux raisons. Le traitement de grande quantité de données a pour résultat une augmentation de la complexité informatique. Le coût de cette complexité additionnelle pourrait être non justifiable. D’autre part, l’utilisation de petits échantillons a pour résultat des calculs rapides et efficaces pour les algorithmes de minage de données. Les méthodes de statistique pour obtenir des échantillons d’ensemble de donnés satisfaisants pour les problèmes de classification sont discutées dans ce papier. Des résultats sont présentés pour une étude empirique basée sur l’utilisation d’échantillonnage aléatoire séquentiel et l’évaluation d’échantillon utilisant le test d’hypothèse univariée et une mesure théorétique de l’information. Des comparaisons sont faites entre des estimations théoriques et empiriques
Cet article présente la méthode utilisée, l’expérience menée et les résultats obtenus dans le processus de construction d’un outil d'aide à la dérivation des solutions relatives à un type particulier de jeux de mots. Ceci requiert que des techniques soient dérivées pour un accès simple et rapide dans le dictionnaire des mots du langage naturel (l’Afrikaans pour le cas d’espèce). Le gros problème était d’accéder à un large corpus de mots du langage naturel à travers la technique d’identification de mots par extraction partielle. L’autre défi était de représenter un tel dictionnaire sous un format «semi-compressé», permettant ainsi de se trouver dans une situation qui améliore non seulement le temps de recherche dans le dictionnaire, mais aussi l’espace requis pour sa sauvegarde. De plus, un langage de requête, exploitant de façon effective la dite méthode d’accès devait être mise en oeuvre. Le système est conçu de façon à supporter dans le futur des requêtes plus intelligentes. Un temps de réponse acceptable a été obtenu bien qu'un langage interprétatif de Scripting (ObjREXX) ait été utilisé.