Introduit les réseaux de mémoire à long terme (LSTM) comme une solution pour la disparition et l'explosion des gradients dans les réseaux neuronaux récurrents.
Couvre les modèles de séquence à séquence, leur architecture, leurs applications et le rôle des mécanismes d'attention dans l'amélioration des performances.
Introduit un apprentissage profond, de la régression logistique aux réseaux neuraux, soulignant la nécessité de traiter des données non linéairement séparables.
Couvre les bases de l'apprentissage profond, y compris les représentations de données, le sac de mots, le prétraitement des données, les réseaux de neurones artificiels et les réseaux de neurones convolutifs.
Explore l'apprentissage profond pour la PNL, en couvrant les insertions de mots, les représentations contextuelles, les techniques d'apprentissage et les défis tels que les gradients de disparition et les considérations éthiques.
Explore l'optimisation des réseaux neuronaux, y compris la rétropropagation, la normalisation des lots, l'initialisation du poids et les stratégies de recherche d'hyperparamètres.
Plonge dans la propagation en arrière dans l'apprentissage profond, répondant au défi de la disparition du gradient et à la nécessité d'unités cachées efficaces.
Couvre les réseaux neuronaux convolutifs, les architectures standard, les techniques de formation et les exemples contradictoires en apprentissage profond.