Cette séance de cours traite des techniques de compression de modèles essentielles au déploiement de grands modèles de langage dans les paramètres de production. Il commence par la motivation pour la compression, en soulignant la croissance exponentielle des paramètres du modèle et les défis de lutilisation de grands modèles dans des applications pratiques. L'instructeur introduit diverses méthodes de compression, y compris l'élagage, la quantification, la factorisation du poids, la distillation des connaissances et le partage du poids. Chaque méthode est expliquée en détail, en mettant laccent sur leur impact sur la performance du modèle et le temps dinférence. La séance de cours couvre également l'importance de l'élagage structuré par rapport à l'élagage non structuré et les avantages de la formation de grands modèles avant d'appliquer des techniques de compression. Des études de cas, telles que l'application de la taille dans l'analyse des sentiments et l'utilisation de la distillation des connaissances pour créer des modèles plus petits et efficaces, sont présentées pour illustrer les concepts. La discussion se termine par un aperçu des transformateurs sous-quadratiques, qui abordent les limites des mécanismes d'attention traditionnels dans le traitement de longues séquences, améliorant ainsi l'efficacité et les performances dans des applications réelles.