01 - Forêts aléatoires : importance et sélection de variables - Jean-Michel POGGI
Listen now
Description
On s'intéresse à la méthode des forêts aléatoires d'un point de vue méthodologique. Introduite par Leo Breiman en 2001, elle est désormais largement utilisée tant en classification qu'en régression avec un succès spectaculaire. On vise tout d'abord à confirmer les résultats expérimentaux, connus mais épars, quant au choix des paramètres de la méthode, tant pour les problèmes dits og standards g que pour ceux dits de og grande dimension g (pour lesquels le nombre de variables est très grand vis à vis du nombre d'observations). Mais la contribution principale de cet article est d'étudier le comportement du score d'importance des variables basé sur les forêts aléatoires et d'examiner deux problèmes classiques de sélection de variables. Le premier est de dégager les variables importantes à des fins d'interprétation tandis que le second, plus restrictif, vise à se restreindre à un sous-ensemble suffisant pour la prédiction. La stratégie générale procède en deux étapes : le classement des variables basé sur les scores d'importance suivie d'une procédure d'introduction ascendante séquentielle des variables. Il s'agit d'un travail en collaboration avec R. Genuer et C. Tuleau. Jean-Michel Poggi. Université Paris-Sud. Vous pouvez entendre l'intervention, tout en visualisant le Power Point, en cliquant sur ce lien : http://epn.univ-paris1.fr/modules/ufr27statim/UFR27STATIM-20090122-Poggi/UFR27STATIM-20090122-Poggi.html. Ecouter l'intervention : Bande son disponible au format mp3 Durée : 1h02
More Episodes
La réduction de dimension a pour ambition de produire des représentations en faible dimension d'ensembles de données en haute dimension. Un des objectifs principaux de la réduction de dimension est la visualisation de données (en dimension 2 ou 3). De nombreuses méthodes de réduction de dimension...
Published 01/22/09
Les premiers niveaux du système visuel des primates sont maintenant bien connus. Dans cet exposé, nous présentons leur architecture et leurs fonctions comme un modèle pour le traitement et l'analyse des images. Tout y apparaît comme bien adapté à la statistique des images pour en réduire la...
Published 01/22/09