Séance de cours

Techniques de compression de modèle : Améliorer les réseaux neuronaux

Description

Cette séance de cours traite des techniques de compression de modèles essentielles au déploiement de grands modèles de langage dans les paramètres de production. Il commence par la motivation pour la compression, en soulignant la croissance exponentielle des paramètres du modèle et les défis de lutilisation de grands modèles dans des applications pratiques. L'instructeur introduit diverses méthodes de compression, y compris l'élagage, la quantification, la factorisation du poids, la distillation des connaissances et le partage du poids. Chaque méthode est expliquée en détail, en mettant laccent sur leur impact sur la performance du modèle et le temps dinférence. La séance de cours couvre également l'importance de l'élagage structuré par rapport à l'élagage non structuré et les avantages de la formation de grands modèles avant d'appliquer des techniques de compression. Des études de cas, telles que l'application de la taille dans l'analyse des sentiments et l'utilisation de la distillation des connaissances pour créer des modèles plus petits et efficaces, sont présentées pour illustrer les concepts. La discussion se termine par un aperçu des transformateurs sous-quadratiques, qui abordent les limites des mécanismes d'attention traditionnels dans le traitement de longues séquences, améliorant ainsi l'efficacité et les performances dans des applications réelles.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.