Concept

Assemblage (bio-informatique)

Résumé
En bio-informatique, l'assemblage consiste à aligner et/ou fusionner des fragments d'ADN ou d'ARN issus d'une plus longue séquence afin de reconstruire la séquence originale. Il s'agit d'une étape d'analyse in silico qui succède au séquençage de l'ADN ou de l'ARN d'un organisme unique, d'une colonie de clones (bactériens par exemple), ou encore d'un mélange complexe d'organismes. Le problème de l'assemblage peut être comparé à celui de la reconstruction du texte d'un livre à partir de plusieurs copies de celui-ci, préalablement déchiquetées en petits morceaux. Les stratégies d'assemblage peuvent être organisées en 3 principaux paradigmes. Historiquement la première stratégie d'assemblage, celle-ci consiste à faire systématiquement le meilleur choix disponible sans possibilité de revenir sur ce choix plus tard. Le principal défaut de cette stratégie est qu'elle mène à des optimums locaux sans prendre en compte la relation globale entre les fragments. La plupart des assembleurs gloutons utilisent des heuristiques pour éviter le mauvais assemblage de séquences répétées. La plupart des premiers assembleurs tels que Phrap ou TIGR reposent sur ce paradigme, ainsi que quelques outils plus récents comme VCAKE. Cette stratégie d'assemblage se déroule en 3 étapes: Construction d'un graphe d'intervalles de chevauchement de fragments. Chaque fragment est un nœud du graphe, et une arête est créée entre deux fragments lorsque ceux-ci se chevauchent. Simplification du graphe. Des sous-graphes denses sont identifiés comme une collection de fragment qui se chevauchent entre eux et qui proviennent probablement de la même séquence originale. Extraction des séquences consensus. Une séquence consensus (contig) est générée à partir de l'ensemble des fragments de chaque sous-graphe. Une variante de cette stratégie consiste à supprimer les liens transitifs du graphe de chevauchement pour construire un string graph. Ce paradigme a notamment été rendu populaire par les travaux de Gene Myers intégrés dans l'assembleur Celera.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Proximité ontologique
Cours associés (7)
BIO-109: Introduction to life sciences (for IC)
Ce cours présente les principes fondamentaux à l'œuvre dans les organismes vivants. Autant que possible, l'accent est mis sur les contributions de l'Informatique aux progrès des Sciences de la Vie.
ENV-621: Hands-on bioinformatics for microbial meta-omics
This course will train doctoral students to use bioinformatic tools to analyse amplicon and metagenomic sequences. In addition, we will also touch upon meta-transcriptomics and meta-proteomics.
BIO-693: Bioinformatic Analysis of RNA-sequencing
This course will take place from 3rd to 7th June 2024. It will introduce the workflows and techniques that are used for the analysis of bulk and single cell RNA-seq data. It will empower students to
Afficher plus
Séances de cours associées (22)
NGS Data Analysis: Outils et modèles
Explore des outils et des modèles pour l'analyse de données de séquençage de nouvelle génération, couvrant les technologies de séquençage de l'ADN, les pipelines d'analyse de données et les modèles statistiques.
Méthodes de séquençage de l'ADN
Explore les méthodes de séquençage de l'ADN comme Sanger, le pyroséquençage et les technologies de synthèse.
Séquençage monomoléculaire : stratégies et technologies
Explore les stratégies de séquençage d'une seule molécule, y compris le séquençage par synthèse et le séquençage en temps réel basé sur des guides d'ondes en mode zéro, ainsi que la translocation de l'ADN à travers les nanopores.
Afficher plus
Publications associées (60)

Comparison of Three Viral Nucleic Acid Preamplification Pipelines for Sewage Viral Metagenomics

Tamar Kohn, Xavier Fernandez Cassi

Viral metagenomics is a useful tool for detecting multiple human viruses in urban sewage. However, more refined protocols are required for its effective use in disease surveillance. In this study, we investigated the performance of three different preampli ...
2024

Multienzyme deep learning models improve peptide de novo sequencing by mass spectrometry proteomics

Hamed Khakzad

Author summaryIn recent years, the application of deep learning represented a breakthrough in the mass spectrometry (MS) field by improving the assignment of the correct sequence of amino acids from observable MS spectra without prior knowledge, also known ...
PUBLIC LIBRARY SCIENCE2023

Evaluation of genetic demultiplexing of single-cell sequencing data from model species

Clement Helsens

Single-cell sequencing (sc-seq) provides a species agnostic tool to study cellular processes. However, these technologies are expensive and require sufficient cell quantities and biological replicates to avoid artifactual results. An option to address thes ...
LIFE SCIENCE ALLIANCE LLC2023
Afficher plus
Concepts associés (11)
Séquençage de l'ADN
cadre|Résultat du séquençage par la méthode de Sanger. L'ordre de chaque bande indique la position d'un nucléotide A,T,C ou G Le séquençage de l'ADN consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné. La séquence d’ADN contient l’information nécessaire aux êtres vivants pour survivre et se reproduire. Déterminer cette séquence est donc utile aussi bien pour les recherches visant à savoir comment vivent les organismes que pour des sujets appliqués.
Projet de séquençage de génome
Les projets de séquençage de génome sont des projets scientifiques qui ont pour but d'obtenir les séquences complètes des génomes de différents organismes: bactéries, plantes, champignons, animaux, et humain. Ce travail nécessite la séquence de l'ADN de chacun des chromosomes de l'espèce. Pour une bactérie, il n'y a qu'un chromosome à séquencer. Pour l'espèce humaine, qui possède 22 paires de chromosomes et 2 chromosomes sexuels (X et Y), il y a 24 chromosomes à séquencer. Le projet génome humain est abouti depuis 2003.
Pyroséquençage
Le pyroséquençage est une technique de séquençage de l'ADN qui permet d’effectuer un séquençage rapide et à moindre coût qu’un séquençage par la méthode de Sanger. En effet, cette technique ne nécessite pas de clonage (donc gain de temps et d’argent), et permet une lecture directe de la séquence obtenue après le séquençage. Elle est basée sur le principe du « séquençage par synthèse », dans lequel le séquençage est effectué en détectant le nucléotide incorporé par une ADN polymérase.
Afficher plus