Résumé
En statistique, l’imputation désigne le processus de remplacement des données manquantes avec des valeurs substituées. Quand un point de données est substitué, on parle d’imputation unitaire ; quand une composante de point de données est substituée, on parle d’imputation d'items. Des données manquantes peuvent être à l'origine de trois types de problèmes : elles peuvent introduire une quantité importante de biais statistiques ; elles peuvent rendre le traitement et l'analyse des données plus laborieux ; elles peuvent réduire l'efficacité des méthodes statistiques. L'imputation est considérée comme un moyen d'éviter les pièges liées aux valeurs manquantes, en préservant tous les cas par le remplacement des données manquantes par une valeur estimée basée sur d'autres informations disponibles. Une fois toutes les valeurs manquantes imputées, on peut alors analyser l'ensemble de données à l'aide des techniques standard applicables à des jeux de données complets. De nombreuses techniques ont été développées pour traiter les données manquantes, mais la majorité d'entre elles introduisent des biais. Parmi les plus courantes, on trouve notamment : la suppression de données manquantes : par liste ou par paires ; des techniques d'imputation unique : hot deck et cold deck, par la dernière observation reportée, par la moyenne, par factorisation matricielle non négative, par régression, stochastique ; des techniques d'imputation multiple. La technique de loin la plus courante pour traiter les données manquantes est la suppression par liste (également appelée cas complet), consistant à supprimer tous les cas avec une valeur manquante. Si le manque de données se fait totalement au hasard, la suppression par liste n'ajoute aucun biais : elle ne fait que réduire la puissance de l'analyse en diminuant la taille effective de l'échantillon. Par exemple, si sont collectés mais que 80 ont des valeurs manquantes, la taille d'échantillon effective après la suppression de la liste est de 920.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.