Assemblage (bio-informatique)En bio-informatique, l'assemblage consiste à aligner et/ou fusionner des fragments d'ADN ou d'ARN issus d'une plus longue séquence afin de reconstruire la séquence originale. Il s'agit d'une étape d'analyse in silico qui succède au séquençage de l'ADN ou de l'ARN d'un organisme unique, d'une colonie de clones (bactériens par exemple), ou encore d'un mélange complexe d'organismes. Le problème de l'assemblage peut être comparé à celui de la reconstruction du texte d'un livre à partir de plusieurs copies de celui-ci, préalablement déchiquetées en petits morceaux.
Nucleic acid notationThe nucleic acid notation currently in use was first formalized by the International Union of Pure and Applied Chemistry (IUPAC) in 1970. This universally accepted notation uses the Roman characters G, C, A, and T, to represent the four nucleotides commonly found in deoxyribonucleic acids (DNA). Given the rapidly expanding role for genetic sequencing, synthesis, and analysis in biology, some researchers have developed alternate notations to further support the analysis and manipulation of genetic data.
Whole genome sequencingWhole genome sequencing (WGS), also known as full genome sequencing, complete genome sequencing, or entire genome sequencing, is the process of determining the entirety, or nearly the entirety, of the DNA sequence of an organism's genome at a single time. This entails sequencing all of an organism's chromosomal DNA as well as DNA contained in the mitochondria and, for plants, in the chloroplast. Whole genome sequencing has largely been used as a research tool, but was being introduced to clinics in 2014.
Reference genomeA reference genome (also known as a reference assembly) is a digital nucleic acid sequence database, assembled by scientists as a representative example of the set of genes in one idealized individual organism of a species. As they are assembled from the sequencing of DNA from a number of individual donors, reference genomes do not accurately represent the set of genes of any single individual organism. Instead a reference provides a haploid mosaic of different DNA sequences from each donor.
Séquence (acide nucléique)vignette| Séquence d'un ARN messager faisant apparaître ses codons. La séquence d'un acide nucléique — ADN ou ARN — est la succession des nucléotides qui le constituent. Cette succession contient l'information génétique portée par ces polynucléotides, de sorte qu'on la qualifie également de séquence génétique ou parfois de séquence nucléotidique. Elle peut être déterminée par des méthodes de séquençage de l'ADN. Les séquences nucléotidiques sont conventionnellement écrites dans le sens , qui est celui dans lequel sont lues et synthétisées ces biomolécules.
454 Life Sciences454 Life Sciences est une société basée à Branford dans le Connecticut aux États-Unis, spécialisée dans la fabrication de séquenceur de gènes à haut débit. La société fut rachetée par Roche en 2007 et est maintenant une filiale de celle-ci. C'est la société qui s'est lancée dans le projet de séquençage du génome de l'homme de Néandertal, en collaboration avec le Max-Planck-Institut. La technique employée est une sorte de séquençage en temps réel. Lors de la synthèse d'un nouveau brin d'ADN, il y a lecture de la fluorescence apportée par le nouveau nucléotide.
StatistiqueLa statistique est la discipline qui étudie des phénomènes à travers la collecte de données, leur traitement, leur analyse, l'interprétation des résultats et leur présentation afin de rendre ces données compréhensibles par tous. C'est à la fois une branche des mathématiques appliquées, une méthode et un ensemble de techniques. ce qui permet de différencier ses applications mathématiques avec une statistique (avec une minuscule). Le pluriel est également souvent utilisé pour la désigner : « les statistiques ».
Frequentist probabilityFrequentist probability or frequentism is an interpretation of probability; it defines an event's probability as the limit of its relative frequency in many trials (the long-run probability). Probabilities can be found (in principle) by a repeatable objective process (and are thus ideally devoid of opinion). The continued use of frequentist methods in scientific inference, however, has been called into question. The development of the frequentist account was motivated by the problems and paradoxes of the previously dominant viewpoint, the classical interpretation.
Inférence statistiquevignette|Illustration des 4 principales étapes de l'inférence statistique L'inférence statistique est l'ensemble des techniques permettant d'induire les caractéristiques d'un groupe général (la population) à partir de celles d'un groupe particulier (l'échantillon), en fournissant une mesure de la certitude de la prédiction : la probabilité d'erreur. Strictement, l'inférence s'applique à l'ensemble des membres (pris comme un tout) de la population représentée par l'échantillon, et non pas à tel ou tel membre particulier de cette population.
Étude d'association pangénomiqueUne étude d'association pangénomique (en anglais genome-wide association study, GWAS) est une analyse de nombreuses variations génétiques chez de nombreux individus, afin d'étudier leurs corrélations avec des traits phénotypiques. Ces études se concentrent généralement sur les associations entre les polymorphismes nucléotidiques (SNP) et des phénotypes tels que les maladies humaines majeures. En effet, quand elle est appliquée sur des données humaines, une comparaison de séquences d’ADN se fait entre individus ayant plusieurs phénotypes différents pour un même caractère, la taille par exemple.