Fouille de données | |
Auteur(s) : PREUX PHILIPPE
09-10-2008
Éditeur(s) : Université de Lille III Université de Charles-de-Gaulle; Description : Ce cours adopte une approche pragmatique et pratique, tout en essayant de donner le matériel nécessaire pour comprendre ce que l'on fait : le but n'est pas d'appliquer aveuglément des algorithmes, mais de connaître des algorithmes et de savoir quand et comment les appliquer, d'être capable de les utiliser et de juger les résultats qu'ils fournissent. En fouille de données, on ne peut pas se contenter d'appliquer aveuglément une méthode et de se contenter tout aussi aveuglément du résultat obtenu, comme s'il s'agissait de LA réponse au problème. Les algorithmes d'extraction d'information constituent une boîte à outils ; ayant cette boîte à disposition, il nous faut apprendre à les utiliser, comme l'artisan apprend à manier ces outils. Dit autrement, la fouille de données est un art : outre les connaissances plus ou moins techniques à acquérir, il faut ensuite accumuler beaucoup de pratique. Au niveau pratique, on s'appuie exclusivement sur des logiciels libres : ils sont aisément accessibles sur la Toile. Certains sont remarquables. Malheureusement, il n'y a pas à l'heure actuelle de véritable atelier de fouille de données qui soit libre. Ceux-ci intègrent de très nombreux outils d'analyse et de fouille de données, de visualisation de données et des résultats de fouille, de présentation des résultats (création de tableaux de bord) et de liaison avec des bases et entrepôts de données : ces logiciels sont assez onéreux. On ne s'attaque pas au problème de la gestion de gros volumes de données ; ce que l'on raconte ici s'applique à des volumes de données raisonnables (ordre de grandeur : méga-octets stockés dans de simples fichiers Unix : suite de caractères non structurée ou des bases de données traditionnelles (type sql). Au-delà, des architectures spécialisées (entrepôts de données) sont nécessaires pour cette gestion. Ici et là, on indique comment passer à l'échelle en ce qui concerne les algorithmes de fouille. Mots-clés libres : Aide à la décision, jeu de données, réseau de neurones, arbre de décision, théorème bayésien, classification, MVS, segmentation, ACP, apprentissage automatique, fuscia Classification générale : Bibliothéconomie, Sciences de l'information Accès à la ressource : http://www.grappa.univ-lille3.fr/~ppreux/Documents... Conditions d'utilisation : Document soumis à la licence GFDL (http://www.gnu.org/copyleft/fdl.html) | DONNEES PEDAGOGIQUES Type pédagogique : cours / présentation, exercice Granularité : cours Niveau : master Public cible : apprenant Difficulté : moyen Durée d'apprentissage : 1 jour Age attendu du l'utilisateur : 18 et + DONNEES TECHNIQUES Date de publication : 13-02-2009 Format : application/pdf Exigences techniques : Nécessite Adobe Acrobat Reader ou tout autre logiciel permettant la lecture de documents au format PDF Les TP sont réalisés à l'aide de l'environnement logiciel R (http://www.r-project.org/) |
Exporter au format XML |