Représentation des données : BoW et données déséquilibrées

Cette séance de cours couvre les concepts de sur-ajustement vs sous-ajustement, la sélection du modèle, la méthode de l'ensemble de validation, LOOCV, k-fold validation croisée, pénalisant sur-ajustement, régularisé régression linéaire, kernel ridge régression, et de trouver la force de régularisation droit. Il traite également de la représentation des données, de la normalisation des données, des données manquantes, des données bruyantes, des méthodes de nettoyage et des défis posés par les données déséquilibrées dans le machine learning.