Publication

Synthetic Generation of Activity-related data

Quentin Philippe Bochud
2023
Projet étudiant
Résumé

The field of synthetic data is more and more present in our everyday life. The transportation domain is particularly interested in improving the methods for the generation of synthetic data in order to address the privacy and availability issue of real data. Since we want to generate data for Activity Based Models, the key challenge of this project is to expand the existing simulation generation method, Markov Chain Monte Carlo (MCMC), to generate data about the activities of individuals. This allows us to anonymize people's trips and to analyze how people's behavior is related to their trips (e.g. home-work-supermarket-home for people living alone or home-study-sport-home for students). The generated data can be useful for other studies or for planning in the professional transportation field. Once data is generated, we have to validate the representativity of the synthetic sample compared to the real one. The first step in using MCMC is to prepare the inputs by creating conditional probabilities. The construction of these vectors varies depending on the type of data that we want to generate (e.g. continuous, discrete). In the current version of the existing framework, only discrete attributes are defined. We plan to expand on the generation of continuous attributes and sequential data. The data used are from the Swiss Mobility and Transport Micro Census Data (MTMC). The Federal Office for Spatial Development (ARE) and the Federal Statistical Office (FSO) conducted a national survey to gather the data. This data sample gathers information on people's mobility behaviors. Respondents list their socioeconomic features, their daily mobility routines (such as time or distance to work), and detailed records of their travels throughout a reference period (1 day).

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Concepts associés (34)
Donnée
Une donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.
Big data
Le big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
Analyse des données
L’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.
Afficher plus
Publications associées (41)

Hybrid Simulator for Capturing Dynamics of Synthetic Populations

Michel Bierlaire, Marija Kukic

This paper presents a novel hybrid framework for generating and updating a synthetic population. We call it hybrid because it combines model-based and data-driven approaches. Existing generators produce a snapshot of synthetic data that becomes outdated ov ...
IEEE2024

Quantitative assessment of research data management practice - 2021

Francesco Varrato, Chiara Gabella, Eliane Ninfa Blumer

This survey aims to investigate research data management practices at EPFL and integrate their results into specific academic services. The previous two editions, in collaboration with TU Delft, Cambridge University and Illinois University, were carried ou ...
2022

Data mining in the context of urban metabolism: A case study of Geneva and Lausanne, Switzerland

Claudia Rebeca Binder Signer, Aristide Henri Roger Athanassiadis, Nicole Sophie Wiedmann

The highest share of the global population lives in cities. The current configuration of the latter requires considerable amounts of resource flows causing the degradation of local and global ecosystems. To face the complexity of these challenges, scientis ...
IOP PUBLISHING LTD2021
Afficher plus
MOOCs associés (22)
Systèmes d’Information Géographique 1
Organisé en deux parties, ce cours présente les bases théoriques et pratiques des systèmes d’information géographique, ne nécessitant pas de connaissances préalables en informatique. En suivant cette
Systèmes d’Information Géographique 1
Organisé en deux parties, ce cours présente les bases théoriques et pratiques des systèmes d’information géographique, ne nécessitant pas de connaissances préalables en informatique. En suivant cette
Geographical Information Systems 1
Organisé en deux parties, ce cours présente les bases théoriques et pratiques des systèmes d’information géographique, ne nécessitant pas de connaissances préalables en informatique. En suivant cette
Afficher plus