• Séminaire / Formations,

Cours d'école doctorale : Emilie Lebarbier (Modal'X), 2ème partie

Publié le 5 février 2021 Mis à jour le 8 février 2021

Une introduction à la segmentation de processus : algorithmique & sélection de modèle (2ème partie)

Date(s)

le 18 février 2021

14h-15h30
Lieu(x)
En direct sur Teams
Plan d'accès
Résumé:

La détection de rupture fait l’objet d’une recherche intensive depuis plus de 50 ans. Cet intérêt s’explique en grande partie par ses enjeux applicatifs dans des domaines aussi variés que le médical, la génomique, la métérologie, la géodésie, l’économétrie, l’industrie, l’écologie, etc ... En effet, de nombreux phénomènes sont soumis à des changements abrupts de comportement en certains instants, appelés instants de rupture et l’objectif consiste à les détecter, i.e. combien y a-t-il de changements ? où sont-ils ? que dire de la précision de leurs localisations ? etc ... La traduction statistique de cet objectif est d’identifier les instants où les propriétés statistiques, typiquement la distribution des données, sont différentes avant et après ces instants.



Dans ce cours, je présente une méthode appelée méthode de segmentation dans un cadre paramétrique (la série d’observations est modélisée par une certaine distribution et ce sont certains ou tous les paramètres qui subissent les changements) par minimisation de contraste pénalisée. La difficulté principale en segmentation est la nature discrète des paramètres des instants de rupture qui ne permet plus d'utiliser les outils standard de la théorie classique du maximum de vraisemblance. La taille exponentielle de l'espace des segmentations va poser à la fois un problème algorithmique pour l'estimation des instants de rupture en pratique et un problème statistique de sélection de modèle pour le choix du nombre de segments.



Dans un premier cours, après une présentation générale et des principaux challenges en segmentation, je présente l'algorithme aujourd'hui bien connu en segmentation de programmation dynamique permettant d'obtenir la meilleure segmentation en un temps raisonnable. Je précise ces conditions d'applicabilité.



Le second cours porte sur deux points:

(i) les instants de ruptures: que peut-on dire des propriétés des estimateurs de ces instants? peut-on construire des intervalles de confiance?

(ii) la question du choix du nombre de segments. Les critères classiques de sélection de modèle AIC et BIC ne sont théoriquement pas justifiés en segmentation et sur-estiment très fortement le nombre de segments en pratique. Je présente tout d'abord ces deux critères et explique pourquoi ces critères ne fonctionnent pas en segmentation. Je présente ensuite des critères proposés par différents auteurs qui sont des versions corrigées des critères classiques et adaptés: Zhang and Siegmund (2007) et Rigaill et al. (2011) en bayesien; Birgé and Massart (2001) dans un cadre fréquentiste non-asymptotique.

Pour finir ce cours, je présente un problème de segmentation 2D motivé par une application en génomique (Lévy-Leduc C et al. (2014)) qui d'une part se réécrit comme un problème de segmentation 1D pour le problème algorithmique et d'autre part pour lequel un phénomène d'auto-pénalisation apparaît pour le choix du nombre de segments.

Mis à jour le 08 février 2021