Publication

Lattice-Free Mmi Adaptation Of Self-Supervised Pretrained Acoustic Models

Hervé Bourlard, Apoorv Vyas
2021
Article de conférence
Résumé

In this work, we propose lattice-free MMI (LFMMI) for supervised adaptation of self-supervised pretrained acoustic model. We pretrain a Transformer model on thousand hours of untranscribed Librispeech data followed by supervised adaptation with LFMMI on three different datasets. Our results show that fine-tuning with LFMMI, we consistently obtain relative WER improvements of 10% and 35.3% on the clean and other test sets of Librispeech (100h), 10.8% on Switchboard (300h), and 4.3% on Swahili (38h) and 4.4% on Tagalog (84h) compared to the baseline trained only with supervised data.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Concepts associés (12)
Transformeur génératif pré-entraîné
droite|vignette| Architecture du modèle GPT Le transformeur génératif pré-entraîné (ou GPT, de l’anglais generative pre-trained transformer) est une famille de modèles de langage généralement formée sur un grand corpus de données textuelles pour générer un texte de type humain. Il est construit en utilisant plusieurs blocs de l'architecture du transformeur. Ils peuvent être affinés pour diverses tâches de traitement du langage naturel telles que la génération de texte, la traduction de langue et la classification de texte.
Apprentissage profond
L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.
Intelligence artificielle
vignette|redresse=0.8|Les assistants personnels intelligents sont l'une des applications concrètes de l'intelligence artificielle dans les années 2010. L'intelligence artificielle (IA) est un ensemble de théories et de techniques visant à réaliser des machines capables de simuler l'intelligence humaine. Souvent classée dans le groupe des mathématiques et des sciences cognitives, elle fait appel à la neurobiologie computationnelle (particulièrement aux réseaux neuronaux) et à la logique mathématique (partie des mathématiques et de la philosophie).
Afficher plus
Publications associées (32)

The multimodality cell segmentation challenge: toward universal solutions

Sahand Jamal Rahi, Vojislav Gligorovski, Marco Labagnara, Jun Ma, Xin Yang, Maxime Emmanuel Scheder, Yao Zhang, Bo Wang, Yixin Wang, Lin Han

Cell segmentation is a critical step for quantitative single-cell analysis in microscopy images. Existing cell segmentation methods are often tailored to specific modalities or require manual interventions to specify hyper-parameters in different experimen ...
Nature Portfolio2024

Few-shot Learning for Efficient and Effective Machine Learning Model Adaptation

Arnout Jan J Devos

Machine learning (ML) enables artificial intelligent (AI) agents to learn autonomously from data obtained from their environment to perform tasks. Modern ML systems have proven to be extremely effective, reaching or even exceeding human intelligence.Althou ...
EPFL2024

Infusing structured knowledge priors in neural models for sample-efficient symbolic reasoning

Mattia Atzeni

The ability to reason, plan and solve highly abstract problems is a hallmark of human intelligence. Recent advancements in artificial intelligence, propelled by deep neural networks, have revolutionized disciplines like computer vision and natural language ...
EPFL2024
Afficher plus