Cette séance de cours se concentre sur l'évaluation des systèmes de génération de langage naturel (NLG), en discutant de diverses mesures utilisées pour évaluer la qualité du texte généré. L'instructeur commence par décrire les méthodes d'évaluation clés, y compris les mesures de chevauchement de contenu, les mesures basées sur des modèles et les évaluations humaines. La séance de cours souligne limportance de la perplexité en tant que mesure de la qualité du modèle, tout en abordant ses limites dans lévaluation des phrases générées. La discussion progresse vers des métriques de chevauchement de contenu, telles que BLEU et ROUGE, qui sont couramment utilisées mais pas idéales pour des tâches ouvertes telles que le dialogue et la génération d’histoires. L'instructeur introduit des métriques de chevauchement sémantique, y compris PYRAMID et SPICE, qui fournissent une évaluation plus nuancée du contenu généré. Des mesures basées sur des modèles sont également explorées, mettant l'accent sur l'utilisation de représentations apprises pour évaluer la similarité sémantique. La séance de cours se termine par une discussion sur la nécessité d'évaluations humaines, reconnaissant leur rôle en tant que référence en dépit d'être long et coûteux. Dans l'ensemble, la séance de cours fournit un aperçu complet des défis et des méthodologies dans l'évaluation des systèmes NLG.