Publication

Bertraffic: Bert-Based Joint Speaker Role And Speaker Change Detection For Air Traffic Control Communications

Résumé

Automatic speech recognition (ASR) allows transcribing the communications between air traffic controllers (ATCOs) and aircraft pilots. The transcriptions are used later to extract ATC named entities, e.g., aircraft callsigns. One common challenge is speech activity detection (SAD) and speaker diarization (SD). In the failure condition, two or more segments remain in the same recording, jeopardizing the overall performance. We propose a system that combines SAD and a BERT model to perform speaker change detection and speaker role detection (SRD) by chunking ASR transcripts, i.e., SD with a defined number of speakers together with SRD. The proposed model is evaluated on real-life public ATC databases. Our BERT SD model baseline reaches up to 10% and 20% token-based Jaccard error rate (JER) in public and private ATC databases. We also achieved relative improvements of 32% and 7.7% in JERs and SD error rate (DER), respectively, compared to VBx, a well-known SD system.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Concepts associés (10)
Speaker recognition
Speaker recognition is the identification of a person from characteristics of voices. It is used to answer the question "Who is speaking?" The term voice recognition can refer to speaker recognition or speech recognition. Speaker verification (also called speaker authentication) contrasts with identification, and speaker recognition differs from speaker diarisation (recognizing when the same speaker is speaking).
Informatique affective
L’informatique affective ou informatique émotionnelle (en anglais, affective computing) est l'étude et le développement de systèmes et d'appareils ayant les capacités de reconnaître, d’exprimer, de synthétiser et modéliser les émotions humaines. C'est un domaine de recherche interdisciplinaire couvrant les domaines de l'informatique, de la psychologie et des sciences cognitives qui consiste à étudier l’interaction entre technologie et sentiments.
Contrôleur aérien
Un contrôleur de la circulation aérienne ou contrôleur aérien (parfois surnommé aiguilleur du ciel) est une personne chargée d'assurer un service de contrôle de la circulation aérienne. Il exerce son métier dans la vigie d'une tour de contrôle (pour le contrôle d'aérodrome), ou dans une salle de contrôle d'approche (pour les arrivées et les départs) ou dans un centre de contrôle régional (contrôle en route). Le premier rôle du contrôleur aérien est de séparer les avions et autres appareils volants (l'ensemble étant appelé aéronefs) entre eux.
Afficher plus
Publications associées (32)

A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers

Petr Motlicek, Juan Pablo Zuluaga Gomez, Amrutha Prasad

In this paper we propose a novel virtual simulation-pilot engine for speeding up air traffic controller (ATCo) training by integrating different state-of-the-art artificial intelligence (AI)-based tools. The virtual simulation-pilot engine receives spoken ...
MDPI2023

Validating Automatic Speech Recognition and Understanding for Pre-Filling Radar Labels-Increasing Safety While Reducing Air Traffic Controllers' Workload

Juan Pablo Zuluaga Gomez

Automatic speech recognition and understanding (ASRU) for air traffic control (ATC) has been investigated in different ATC environments and applications. The objective of this study was to quantify the effect of ASRU support for air traffic controllers (AT ...
2023

A Two-Step Approach To Leverage Contextual Data: Speech Recognition In Air-Traffic Communications

Petr Motlicek, Juan Pablo Zuluaga Gomez, Amrutha Prasad

Automatic Speech Recognition (ASR), as the assistance of speech communication between pilots and air-traffic controllers, can significantly reduce the complexity of the task and increase the reliability of transmitted information. ASR application can lead ...
IEEE2022
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.