Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours de l'instructeur aborde les dangers des « grands » modèles en statistique pour la science des données, en mettant l'accent sur les questions de multicollinéarité et l'analyse de l'ajustement des modèles. L'exposé traite de l'incidence de l'ajout de variables à un modèle, du concept de multicollinéarité et de la façon dont il peut conduire à des variances gonflées et à des estimations de coefficients peu fiables. Des remèdes tels que la suppression variable et la sélection orthogonale de base sont explorés, ainsi que des outils de diagnostic comme les facteurs d'inflation de variance et les indices de condition. Des exemples pratiques de données sur la graisse corporelle sont utilisés pour illustrer ces concepts.