Version imprimable

Fouille de données




Auteur(s) : PREUX PHILIPPE    09-10-2008 
Éditeur(s) : Université de Lille III   Université de Charles-de-Gaulle;    

Description : Ce cours adopte une approche pragmatique et pratique, tout en essayant de donner le matériel nécessaire pour comprendre ce que l'on fait : le but n'est pas d'appliquer aveuglément des algorithmes, mais de connaître des algorithmes et de savoir quand et comment les appliquer, d'être capable de les utiliser et de juger les résultats qu'ils fournissent. En fouille de données, on ne peut pas se contenter d'appliquer aveuglément une méthode et de se contenter tout aussi aveuglément du résultat obtenu, comme s'il s'agissait de LA réponse au problème. Les algorithmes d'extraction d'information constituent une boîte à outils ; ayant cette boîte à disposition, il nous faut apprendre à les utiliser, comme l'artisan apprend à manier ces outils. Dit autrement, la fouille de données est un art : outre les connaissances plus ou moins techniques à acquérir, il faut ensuite accumuler beaucoup de pratique. Au niveau pratique, on s'appuie exclusivement sur des logiciels libres : ils sont aisément accessibles sur la Toile. Certains sont remarquables. Malheureusement, il n'y a pas à l'heure actuelle de véritable atelier de fouille de données qui soit libre. Ceux-ci intègrent de très nombreux outils d'analyse et de fouille de données, de visualisation de données et des résultats de fouille, de présentation des résultats (création de tableaux de bord) et de liaison avec des bases et entrepôts de données : ces logiciels sont assez onéreux. On ne s'attaque pas au problème de la gestion de gros volumes de données ; ce que l'on raconte ici s'applique à des volumes de données raisonnables (ordre de grandeur : méga-octets stockés dans de simples fichiers Unix : suite de caractères non structurée ou des bases de données traditionnelles (type sql). Au-delà, des architectures spécialisées (entrepôts de données) sont nécessaires pour cette gestion. Ici et là, on indique comment passer à l'échelle en ce qui concerne les algorithmes de fouille.


Mots-clés libres : Aide à la décision, jeu de données, réseau de neurones, arbre de décision, théorème bayésien, classification, MVS, segmentation, ACP, apprentissage automatique, fuscia
Classification générale : Bibliothéconomie, Sciences de l'information

Accès à la ressource : http://www.grappa.univ-lille3.fr/~ppreux/Documents...
Conditions d'utilisation : Document soumis à la licence GFDL (http://www.gnu.org/copyleft/fdl.html)

DONNEES PEDAGOGIQUES

Type pédagogique : cours / présentation, exercice
Granularité : cours
Niveau : master
Public cible : apprenant

Difficulté : moyen

Durée d'apprentissage : 1 jour

Age attendu du l'utilisateur : 18 et +

DONNEES TECHNIQUES

Date de publication : 13-02-2009

Format : application/pdf

Exigences techniques : Nécessite Adobe Acrobat Reader ou tout autre logiciel permettant la lecture de documents au format PDF Les TP sont réalisés à l'aide de l'environnement logiciel R (http://www.r-project.org/)
Exporter au format XML