Partager cette page :

JSTAR 2018 : Programme et résumés

Lieu des conférences : salle du conseil

Jeudi 12 avril

    9h30-10h30 Accueil (café, viennoiseries) en face de la salle du conseil

   10h30-11h15 Gilles Blanchard, Université Potsdam 
                         "Sketched learning using random moments"
   11h15-12h Ilaria Giulini, Université Paris Diderot
                     "Kernel spectral clustering"
   12h-12h45 Nicolas Verzelen, INRA Montpellier
                     "Variable clustering : optimal bounds and a convex approach"

   12h45-14h Déjeuner (à l'ENS)

   14h-14h45 Anna Ben Hamou, Sorbonne Université
                     "Estimer les paramètres d'un graphe par des marches aléatoires"
   14h45-15h30 Angelina Roche, Université Paris Dauphine
                         "Sélection de variables et estimation dans le modèle linéaire fonctionnel multivarié"

    15h30-15h45 Pause

    15h45-16h30 Clément Levrard, Université Paris Diderot
                          "Quelques garanties théoriques pour l'estimation de variétés"
    16h30-17h15 Céline Duval, Université Paris Descartes
                          "Approximation par des processus de Poisson pour estimer la mesure de Lévy"

    20h Dîner au restaurant "Le Loup" (plan d'accès)


Vendredi 13 avril

   9h-10h Bertrand Michel, Ecole Centrale de Nantes
               "Analyse statistique de l'algorithme Mapper"
   10h-11h Arnaud Poinas, Université Rennes 1
                 "Propriétés de mélange et TCL pour processus ponctuels déterminantaux"

   11h-11h30 Pause

   11h30-12h30 Julien Chevallier, Université Grenoble 
                         "Processus de Hawkes : estimation et champ moyen"

   12h30 Déjeuner (à l'ENS)

LISTE DES RESUMES


«  Sketched learning using random moments » (G. Blanchard) 
[Joint work with: R. Gribonval, N. Keriven, Y. Traonmilin, INRIA Rennes]

We study a general framework for resource-efficient large-scale  learningby data sketching: the training data collection is  compressed in one pass into a low-dimensional sketch (a vector  of random empirical generalized moments) that captures the information  relevant to the considered learning task. A near-minimizer of the risk  is computed from the sketch through the solution of a nonlinear least  squares problem. We investigate sufficient sketch sizes to control the  generalization error of this procedure. The framework is illustrated  for different setups: compressive PCA, compressive clustering,  compressive Gaussian mixture Modeling.


«  Kernel spectral clustering » (I. Giulini)

We consider the setting of performing spectral clustering in a Hilbert space. We show how spectral clustering, coupled with some preliminary change of representation in a reproducing kernel Hilbert space, can bring down the representation of classes to a low-dimensional space and we propose a new algorithm for spectral clustering that automatically estimates the number of classes.

 

«  Variable clustering: optimal bounds and a convex approach »  (N. Verzelen)

 

 The problem of variable clustering is that of grouping similar  components of a $p$ dimensional vector $X = (X_1 , \ldots , X_p)$, and  estimating these groups from $n$ independent copies of $X$. Although  K-means is a natural strategy for this problem, I will explain why it  cannot lead to perfect cluster recovery. Then, I will  introduce a  correction that can be viewed as a penalized convex relaxation of K-means. The clusters estimated by this method are shown to recover the partition $G$ at a minimax optimal cluster separation rate. Along the way, I will discuss some connections with graph clustering problems.

 

« Estimer les paramètres d’un graphe par des marches aléatoires » (Anna Ben Hamou)

Soit G un graphe fixé mais inconnu, que l’on peut explorer localement, en lançant, à partir d’un sommet donné, des marches aléatoires. Peut-on ainsi estimer certains paramètres du réseau, comme par exemple sa taille ? Et surtout, en combien de temps ? Une façon classique de répondre à ce problème est la suivante: on lance plusieurs marches aléatoires de longueur supérieure au temps de mélange (dont on suppose connaître une borne supérieure). L’échantillon formé par les points d’arrivée de ces marches forment alors un échantillon quasiment i.i.d. et l’on peut inférer la taille du graphe par des méthodes classiques, reposant souvent sur le comptage des collisions et le paradoxe des anniversaires. On peut cependant se demander si l’on ne néglige pas de l’information importante en ne considérant que les points d’arrivée des marches. Ne peut-on pas construire des estimateurs plus rapides en considérant toute la trajectoire ? Dans cet exposé, nous montrons que le comptage des intersections entre les trajectoires des marches permet d’estimer efficacement plusieurs paramètres du graphe, et la construction de bornes inférieures pour ce problème nous permet d'établir l’optimalité de ces estimateurs. Il s’agit d’un travail effectué en collaboration avec Roberto I. Oliveira (IMPA) et Yuval Peres (Microsoft Research).

«  Propriétés de mélange et TCL pour processus ponctuels déterminantaux »  (A. Poinas)

Dans cet exposé nous présenterons une classe de processus ponctuels spatiaux sur R^d utilisés pour modéliser des données au caractère répulsif, appelés processus ponctuels déterminantaux (ou DPP). Nous nous intéresserons en particulier à la propriété d'association négative des DPPs. Peu exploitée dans la littérature des processus ponctuels, nous montrerons en quoi elle implique des propriétés d'alpha-mélange ainsi qu'un TCL plus fort que les TCL classiques basés sur le alpha-mélange. Les DPPs étant négativement associés, nous en déduirons un TCL pour une classe générale de fonction de DPPs non stationnaires, incluant en particulier les statistiques utilisées dans l'inférence asymptotique de ces processus.

« Analyse statistique de l'algorithme Mapper » (B. Michel)
[Travail en collaboration avec Mathieu Carriere (INRIA DataShape) and Steve Oudot (INRIA DataShape)]

The Mapper algorithm is a method for topological data analysis  by Gurjeet Singh, Facundo Mémoli and Gunnar Carlsson. In this work, we study the question of the statistical convergence of the 1-dimensional Mapper to its continuous analogue, the Reeb graph. We show that the Mapper is an optimal estimator of the Reeb graph, which gives, as a byproduct, a method to automatically tune its parameters and compute confidence regions on its topological features, such as its loops and flares. This allows to circumvent the issue of testing a large grid of parameters and keeping the most stable ones in the brute-force setting, which iswidely used in visualization, clustering and feature selection with the Mapper.

« Quelques garanties théoriques pour l'estimation de variété » (C. Levrard) 

Cet exposé présentera plusieurs résultats obtenus avec Eddie Aamari (UCSD). La motivation de ces travaux est la suivante: supposons que l'on observe des points dans un espace de dimension potentiellement grande qui semblent s'organiser autour d'une structure géométrique de dimension réduite (une sous-variété), éventuellement bruitée. Avec quelle précision statistique peut-on espérer approcher/reconstruire cette structure? J'exposerai plusieurs résultats (et estimateurs) laissant penser que la réponse à cette question dépend essentiellement de deux paramètres: la régularité de la structure, et sa dimension intrinsèque. 

«  Sélection de variables et estimation dans le modèle linéaire fonctionnel multivarié » (A. Roche)

Dans de nombreuses applications, une quantité d’intérêt dépend d’une ou plusieurs variables fonctionnelles et vectorielles. L’objectif de cet exposé est de présenter une méthode d’estimation et de sélection de variables dans ce contexte là, basée sur la minimisation d’un critère inspiré des travaux de Lounici et al. (2011) sur le Group-Lasso. Après avoir montré des résultats théoriques sur l’estimateur obtenu, un algorithme permettant d’approcher la solution sera proposé.  La méthode sera ensuite appliquée à des données. 

 

« Approximation par des processus de Poisson pour estimer la mesure de Lévy » (C. Duval)

 

We construct an estimator of the Lévy density, with respect to the Lebesgue measure, of a pure jump Lévy process from high frequency observations. The main novelty is that we directly estimate the Lévy density in cases where the process may present infinite activity without relying on the Lévy Kitchen formula. We study the risk of the estimator with respect to L_p loss functions, 1 ≤ p < ∞. The main idea behind the estimation procedure that we propose is to use that "every infinitely divisible distribution is the limit of a sequence of compound Poisson distributions" and to take advantage of the fact that it is well known how to estimate the Lévy density of a compound Poisson process in the high frequency setting. We consider linear wavelet estimators and the performance of our procedure is studied in term of L_p loss functions, p ≥ 1, over Besov balls. (Travail joint avec Ester Mariucci, Magdeburg).

« Processus de Hawkes : estimation et champ moyen »   (J. Chevallier)

Le but de cet exposé est de présenter des procédures d'estimation des processus ponctuels de Hawkes dans leur cadre classique (petite dimension) et d’ouvrir aux questions qui se posent en grande dimension. En particulier dans un cadre d’interactions de type champ-moyen où des résultats d’approximation sont disponibles (loi des grands nombres, TCL et liens avec des modèles EDP en neurosciences).    

Mise à jour le 9 avril 2018