En bio-informatique, l'assemblage consiste à aligner et/ou fusionner des fragments d'ADN ou d'ARN issus d'une plus longue séquence afin de reconstruire la séquence originale. Il s'agit d'une étape d'analyse in silico qui succède au séquençage de l'ADN ou de l'ARN d'un organisme unique, d'une colonie de clones (bactériens par exemple), ou encore d'un mélange complexe d'organismes.
Le problème de l'assemblage peut être comparé à celui de la reconstruction du texte d'un livre à partir de plusieurs copies de celui-ci, préalablement déchiquetées en petits morceaux.
Les stratégies d'assemblage peuvent être organisées en 3 principaux paradigmes.
Historiquement la première stratégie d'assemblage, celle-ci consiste à faire systématiquement le meilleur choix disponible sans possibilité de revenir sur ce choix plus tard. Le principal défaut de cette stratégie est qu'elle mène à des optimums locaux sans prendre en compte la relation globale entre les fragments. La plupart des assembleurs gloutons utilisent des heuristiques pour éviter le mauvais assemblage de séquences répétées. La plupart des premiers assembleurs tels que Phrap ou TIGR reposent sur ce paradigme, ainsi que quelques outils plus récents comme VCAKE.
Cette stratégie d'assemblage se déroule en 3 étapes:
Construction d'un graphe d'intervalles de chevauchement de fragments. Chaque fragment est un nœud du graphe, et une arête est créée entre deux fragments lorsque ceux-ci se chevauchent.
Simplification du graphe. Des sous-graphes denses sont identifiés comme une collection de fragment qui se chevauchent entre eux et qui proviennent probablement de la même séquence originale.
Extraction des séquences consensus. Une séquence consensus (contig) est générée à partir de l'ensemble des fragments de chaque sous-graphe.
Une variante de cette stratégie consiste à supprimer les liens transitifs du graphe de chevauchement pour construire un string graph.
Ce paradigme a notamment été rendu populaire par les travaux de Gene Myers intégrés dans l'assembleur Celera.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Ce cours présente les principes fondamentaux à l'œuvre dans les organismes vivants. Autant que possible, l'accent est mis sur les contributions de l'Informatique aux progrès des Sciences de la Vie.
This course will train doctoral students to use bioinformatic tools to analyse amplicon and metagenomic sequences. In addition, we will also touch upon meta-transcriptomics and meta-proteomics.
This course will take place from 3rd to 7th June 2024.It will introduce the workflows and techniques that are used for the analysis of bulk and single cell RNA-seq data. It will empower students to
cadre|Résultat du séquençage par la méthode de Sanger. L'ordre de chaque bande indique la position d'un nucléotide A,T,C ou G Le séquençage de l'ADN consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné. La séquence d’ADN contient l’information nécessaire aux êtres vivants pour survivre et se reproduire. Déterminer cette séquence est donc utile aussi bien pour les recherches visant à savoir comment vivent les organismes que pour des sujets appliqués.
Les projets de séquençage de génome sont des projets scientifiques qui ont pour but d'obtenir les séquences complètes des génomes de différents organismes: bactéries, plantes, champignons, animaux, et humain. Ce travail nécessite la séquence de l'ADN de chacun des chromosomes de l'espèce. Pour une bactérie, il n'y a qu'un chromosome à séquencer. Pour l'espèce humaine, qui possède 22 paires de chromosomes et 2 chromosomes sexuels (X et Y), il y a 24 chromosomes à séquencer. Le projet génome humain est abouti depuis 2003.
Le pyroséquençage est une technique de séquençage de l'ADN qui permet d’effectuer un séquençage rapide et à moindre coût qu’un séquençage par la méthode de Sanger. En effet, cette technique ne nécessite pas de clonage (donc gain de temps et d’argent), et permet une lecture directe de la séquence obtenue après le séquençage. Elle est basée sur le principe du « séquençage par synthèse », dans lequel le séquençage est effectué en détectant le nucléotide incorporé par une ADN polymérase.
Explore des outils et des modèles pour l'analyse de données de séquençage de nouvelle génération, couvrant les technologies de séquençage de l'ADN, les pipelines d'analyse de données et les modèles statistiques.
Explore les stratégies de séquençage d'une seule molécule, y compris le séquençage par synthèse et le séquençage en temps réel basé sur des guides d'ondes en mode zéro, ainsi que la translocation de l'ADN à travers les nanopores.
,
Viral metagenomics is a useful tool for detecting multiple human viruses in urban sewage. However, more refined protocols are required for its effective use in disease surveillance. In this study, we investigated the performance of three different preampli ...
2024
Single-cell sequencing (sc-seq) provides a species agnostic tool to study cellular processes. However, these technologies are expensive and require sufficient cell quantities and biological replicates to avoid artifactual results. An option to address thes ...
Author summaryIn recent years, the application of deep learning represented a breakthrough in the mass spectrometry (MS) field by improving the assignment of the correct sequence of amino acids from observable MS spectra without prior knowledge, also known ...