L’échantillonnage pour le minage de large ensemble de données est important pour au moins deux raisons. Le traitement de grande quantité de données a pour résultat une augmentation de la complexité informatique. Le coût de cette complexité additionnelle pourrait être non justifiable. D’autre part, l’utilisation de petits échantillons a pour résultat des calculs rapides et efficaces pour les algorithmes de minage de données. Les méthodes de statistique pour obtenir des échantillons d’ensemble de donnés satisfaisants pour les problèmes de classification sont discutées dans ce papier. Des résultats sont présentés pour une étude empirique basée sur l’utilisation d’échantillonnage aléatoire séquentiel et l’évaluation d’échantillon utilisant le test d’hypothèse univariée et une mesure théorétique de l’information. Des comparaisons sont faites entre des estimations théoriques et empiriques