Séminaire MODAL'X : Patrice Bertail (MODAL'X)

Publié le 20 décembre 2024 Mis à jour le 13 janvier 2025

Titre : Biais en apprentissage statistique : une revue et une approche semi-paramétrique par calibration

Date(s)

le 16 janvier 2025

13h30-14h30
Lieu(x)

Bâtiment Maurice Allais (G)

Entresol, salle Modal'X (E-27)
Plan d'accès
Résumé : Dans cette présentation, nous passons d'abord en revue quelques types de biais pouvant apparaître fréquemment dans des problèmes d'apprentissage statistique : biais de données, biais de sélection, biais d'endogénéité, biais de modèle dans les cas non-stationnaires, biais cognitifs etc...  Ces types de biais sont bien connus dans la littérature statistique et plus encore en économétrie mais pas toujours pris en compte en apprentissage. Ces problèmes de biais posent non seulement des problèmes techniques mais aussi éthiques comme nous le verrons sur quelques exemples. Les techniques de corrections de biais sont souvent inspirés de technique de sondage et reposent sur des pondérations adéquates des individus : Vardi dans les année 80's a même donné des conditions nécessaires et suffisantes pour pouvoir corriger de biais (essentiellement de sélection ou d'endogénéité) en présence d'information transversales et/ou marginales. Nous nous intéressons au problème de l'apprentissage par transfert ("Transfert Learning") et montrons comment l'incorporation d'un modèle semi-paramétrique permet de corriger des biais à partir de l'observation de quelques moments : l'idée est très proche de la calibration ou du calage sur marge en sondage, les poids permettant de correctement repondérer les risques. Nous montrons qu'il est possible par ces techniques d'estimer les poids sans véritable perte de vitesse dans les bornes de concentration des risques sous des hypothèses raisonnables.
Travail joint avec S. Clémençon (Télécom, Institut Polytechnique), Y. Guyonvarch (INRAE), N. Noiry (Owkin).

Mis à jour le 13 janvier 2025