25 - Texte seulement Forêts aléatoires : sélection de variables et bornes de risque ( Robin Genuer (Université Paris Sud et Paris 5))
Description
Dans un premier temps, nous présentons une méthode de sélection de variables basée sur l'algorithme des forêts aléatoires. Les forêts aléatoires, introduites par Léo Breiman en 2001, sont une technique statistique très utilisée dans des problèmes pratiques aussi bien en régression qu'en classification. En plus d'être très performantes en prédiction, les forêts aléatoires calculent un indice d'importance des variables. Basée sur cet indice d'importance, notre procédure de sélection de variables cherche à traiter deux problèmes distincts : trouver toutes les variables reliées à la variable réponse (interprétation) ; et trouver un ensemble de variables suffisant pour prédire la variable réponse (prédiction). Nous illustrons cette procédure sur des données réelles d'IRMf (Imagerie à Résonance Magnétique fonctionnelle) de très grande dimension. Dans un deuxième temps, nous présentons des résultats théoriques pour une version simple de forêt aléatoire. Dans un contexte de régression avec une seule variable explicative, nous montrons que les arbres aléatoires ainsi que les forêts aléatoires atteignent la vitesse de convergence minimax. Et plus important, nous prouvons que les forêts améliorent les performances des arbres, en réduisant la variance d'un facteur trois quarts.
This talk is concerned with issues related to social diversity in urban environments. We introduce a model of real estate transactions between agents which are heterogeneous in their willingness to pay. A key feature of the model is the assumption that agents preferences for a location depend...
Published 07/24/11
Cities are constellations of human processes that give rise to a multitude of dynamic behaviours manifesting themselves in rapid, abrupt, surprising, fast, slow and smooth changes across many temporal and spatial scales.
Published 05/28/11