01 - Le compromis intrusion/extrusion pour la projection et la visualisation de données en grande dimension - John A. LEE & Michel VERLEYSEN
Description
La réduction de dimension a pour ambition de produire des représentations en faible dimension d'ensembles de données en haute dimension. Un des objectifs principaux de la réduction de dimension est la visualisation de données (en dimension 2 ou 3). De nombreuses méthodes de réduction de dimension ont été proposées récemment. Une grande partie d'entre elles se basent sur l'optimisation d'un critère de respect de distances entre paires de points. Le critère peut être simple (souvent quadratique, éventuellement après transformation non-linéaire des données), permettant une optimisation de type algébrique. D'autres critères plus pertinents face aux objectifs de la réduction de dimension ont également été définis, permettant par exemple de sous-pondérer les paires de données éloignées, dont la distance est moins importante à prendre en considération pour un objectif de visualisation. Dans ce cas, l'optimisation du critère requiert en général des méthodes itératives basées sur le gradient. La variété des critères développés, ainsi que celle des méthodes d'optimisation utilisées, a donné lieu à un grand nombre de méthodes de réduction non-linéaire de dimension. La comparaison de ces méthodes n'est pas toujours aisée. Il est évident que chaque méthode est og meilleure g que d'autres, si le critère de comparaison utilisé est précisément celui optimisé par la méthode. Des critères de qualité plus objectifs ont alors été proposés dans la littérature. Souvent, ils se basent non plus sur une mesure de respect des distances entre paires de points lors de la projection, mais bien sur la notion de voisinage: les voisons d'un point sont-ils restés les mêmes lors de l'opération de projection' Si la réponse est positive, la projection sera considérée comme bonne. Les critères proposés ne sont néanmoins pas non plus universels, ni exempts de subjectivité, et ce pour deux raisons. D'une part il faut définir quels voisinages sont utilisés pour la mesure de qualité, et comment éventuellement pondérer davantage les voisins proches que les voisins éloignés. D'autre part, sauf dans certains cas particuliers bien précis, il est impossible de préserver parfaitement tous les voisinages. Par exemple, si une sphère ou un cylindre doit être projeté sur un espace de dimension deux, il est impossible d'éviter en même temps les écrasements (des points loin sur la sphère seront projetés proches l'un de l'autre) et les déchirures (des voisins sur la sphère seront projetés loin l'un de l'autre). Cet exposé montrera d'une part que les critères de qualité des méthodes de projection non-linéaires doivent être envisagés sous la forme d'une paire de critères mesurant les intrusions et extrusions, respectivement liées aux écrasements et déchirements décrits ci-dessus. Il montrera d'autre part qu'en définissant proprement une matrice de og co-ranking g (intersection de voisinages dans les espaces avant et après projection), il est possible d'en déduire de façon simple et unifiée les différents critères de respect de voisinages actuellement utilisés dans la littérature. Référence : J. A. Lee & M. Verleysen, Quality assessment of dimensionality reduction: Rank-based criteria. Accepted for publication in Neurocomputing, in Press, available online 10 January 2009. John A. Lee & Michel Verleysen. Université catholique de Louvain. Vous pouvez entendre l'intervention, tout en visualisant le Power Point, en cliquant sur ce lien : http://epn.univ-paris1.fr/modules/ufr27statim/UFR27STATIM-20090123-Verleysen/UFR27STATIM-20090123-Verleysen.html. Ecouter l'intervention : Bande son disponible au format mp3 Durée : 1H06
Les premiers niveaux du système visuel des primates sont maintenant bien connus. Dans cet exposé, nous présentons leur architecture et leurs fonctions comme un modèle pour le traitement et l'analyse des images. Tout y apparaît comme bien adapté à la statistique des images pour en réduire la...
Published 01/22/09
On s'intéresse à la méthode des forêts aléatoires d'un point de vue méthodologique. Introduite par Leo Breiman en 2001, elle est désormais largement utilisée tant en classification qu'en régression avec un succès spectaculaire. On vise tout d'abord à confirmer les résultats expérimentaux, connus...
Published 01/21/09