Ming-Wei Lin ; Jules-Raymond Tapamo ; Baird Ndovie
-
A Texture-based Method for Document Segmentation and Classification
arima:1878 -
Revue Africaine de Recherche en Informatique et Mathématiques Appliquées,
15 octobre 2007,
Volume 6, april 2007, joint Special Issue ARIMA/SACJ on Advances in end-user data mining techniques
-
https://doi.org/10.46298/arima.1878
A Texture-based Method for Document Segmentation and ClassificationArticle
Dans cet article nous présentons un modèle hybride de segmentation et classification du contenu d'images de documents. Chaque image est segmentée en trois types de régions: graphiques, textes et espaces. L'image de chaque document est subdivisée en blocs; pour chacun de ces blocs, cinq caractéristiques sont extraites de leur Matrice de Co-occurrence de leur niveaux de gris. Les blocs sont ensuite regroupés en trois classes en utilisant l'algorithme du K-means. Les blocs connectés sont fusionnés pour former un ensemble de régions homogènes. Des règles heuristiques sont ensuite utilisées pour donner un label à chacune des trois classes. Des expérimentations ont été effectuées avec des images scannées de journaux et des images de la base de données documentaire MediaTeam