JSTAR 2018 : Programme
Jeudi 12 avril
9h30-10h30 Accueil (café, viennoiseries)10h30-11h30 Gilles Blanchard, Université Potsdam
"Sketched learning using random moments"
11h30-12h30 Ilaria Giulini, Université Paris Diderot
"Kernel spectral clustering"
12h30-14h Déjeuner (à l'ENS)
14h-15h Nicolas Verzelen, INRA Montpellier
"Variable clustering : optimal bounds and a convex approach"
15h-16h Anna Ben Hamou, Sorbonne Université (graphes)
16h30-17h30 Arnaud Poinas, Université Rennes 1
"Propriétés de mélange et TCL pour processus ponctuels déterminantaux"
Dîner dans un restaurant de Rennes
Vendredi 13 avril
9h-10h Bertrand Michel, Ecole Centrale de Nantes"Analyse statistique de l'algorithme Mapper"
10h-11h Clément Levrard, Université Paris Diderot (analyse topologique des données)
11h-11h30 Pause café
11h30-12h30 Angelina Roche, Université Paris Dauphine
"Sélection de variables et estimation dans le modèle linéaire fonctionnel multivarié"
12h30-14h Déjeuner (à l'ENS)
14h-15h Céline Duval, Université Paris Descartes (statistique des processus)
15h-16h Julien Chevallier, Université Grenoble
"Processus de Hawkes : estimation et champ moyen"
LISTE DES RESUMES
"Sketched learning using random moments" (G. Blanchard)
[Joint work with: R. Gribonval, N. Keriven, Y. Traonmilin, INRIA Rennes]
We study a general framework for resource-efficient large-scale learningby data sketching: the training data collection is compressed in one pass into a low-dimensional sketch (a vector of random empirical generalized moments) that captures the information relevant to the considered learning task. A near-minimizer of the risk is computed from the sketch through the solution of a nonlinear least squares problem. We investigate sufficient sketch sizes to control the generalization error of this procedure. The framework is illustrated for different setups: compressive PCA, compressive clustering, compressive Gaussian mixture Modeling.
"Kernel spectral clustering" (I. Giulini)
We consider the setting of performing spectral clustering in a Hilbert space. We show how spectral clustering, coupled with some preliminary change of representation in a reproducing kernel Hilbert space, can bring down the representation of classes to a low-dimensional space and we propose a new algorithm for spectral clustering that automatically estimates the number of classes.
“Variable clustering: optimal bounds and a convex approach” (N. Verzelen)
The problem of variable clustering is that of grouping similar components of a $p$ -dimensional vector $X = (X_1 ,\ldots , X_p)$, and estimating these groups from $n$ independent copies of $X$. Although K-means is a natural strategy for this problem, I will explain why it cannot lead to perfect cluster recovery. Then, I will introduce a correction that can be viewed as a penalized convex relaxation of K-means. The clusters estimated by this method are shown to recover the partition $G$ at a minimax optimal cluster separation rate. Along the way, I will discuss some connections with graph clustering problems.
"Propriétés de mélange et TCL pour processus ponctuels déterminantaux" (A. Poinas)
Dans cet exposé nous présenterons une classe de processus ponctuels spatiaux sur R^d utilisés pour modéliser des données au caractère répulsif, appelés processus ponctuels déterminantaux (ou DPP). Nous nous intéresserons en particulier à la propriété d'association négative des DPPs. Peu exploitée dans la littérature des processus ponctuels, nous montrerons en quoi elle implique des propriétés d'alpha-mélange ainsi qu'un TCL plus fort que les TCL classiques basés sur le alpha-mélange. Les DPPs étant négativement associés, nous en déduirons un TCL pour une classe générale de fonction de DPPs non stationnaires, incluant en particulier les statistiques utilisées dans l'inférence asymptotique de ces processus.
"Analyse statistique de l'algorithme Mapper" (B. Michel) [Travail en collaboration avec Mathieu Carriere (INRIA DataShape) and Steve Oudot (INRIA DataShape)]
The Mapper algorithm is a method for topological data analysis by Gurjeet Singh, Facundo Mémoli and Gunnar Carlsson. In this work, we study the question of the statistical convergence of the 1-dimensional Mapper to its continuous analogue, the Reeb graph. We show that the Mapper is an optimal estimator of the Reeb graph, which gives, as a byproduct, a method to automatically tune its parameters and compute confidence regions on its topological features, such as its loops and flares. This allows to circumvent the issue of testing a large grid of parameters and keeping the most stable ones in the brute-force setting, which iswidely used in visualization, clustering and feature selection with the Mapper.
"Sélection de variables et estimation dans le modèle linéaire fonctionnel multivarié" (A. Roche)
Dans de nombreuses applications, une quantité d’intérêt dépend d’une ou plusieurs variables fonctionnelles et vectorielles. L’objectif de cet exposé est de présenter une méthode d’estimation et de sélection de variables dans ce contexte là, basée sur la minimisation d’un critère inspiré des travaux de Lounici et al. (2011) sur le Group-Lasso. Après avoir montré des résultats théoriques sur l’estimateur obtenu, un algorithme permettant d’approcher la solution sera proposé. La méthode sera ensuite appliquée à des données.
"Processus de Hawkes : estimation et champ moyen" (J. Chevallier)
Le but de cet exposé est de présenter des procédures d'estimation des processus ponctuels de Hawkes dans leur cadre classique (petite dimension) et d’ouvrir aux questions qui se posent en grande dimension. En particulier dans un cadre d’interactions de type champ-moyen où des résultats d’approximation sont disponibles (loi des grands nombres, TCL et liens avec des modèles EDP en neurosciences).
Mise à jour le 23 mars 2018