Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre les concepts de mots, de jetons, de n-grammes et de modèles de langage. Il commence par discuter de l'ambiguïté de la définition des mots et des jetons, puis se décline en modèles n-gram et leurs applications dans l'identification de la langue et la correction d'erreurs d'orthographe. La séance de cours souligne l'importance de comprendre l'approche probabiliste, y compris le lissage additif et les antécédents de Dirichlet. Parmi les points clés, mentionnons les défis posés par les formes non-vocabulaires et l'approche probabiliste de correction des erreurs d'orthographe.