Projet Génome humainvignette|Le génome humain est constitué de l'ensemble de l'information portée par nos 23 paires de chromosomes. Le (PGH, ou HGP pour l'anglais Human Genome Project) est un programme lancé fin 1988 dont la mission était d'établir le séquençage complet de l'ADN du génome humain. Son achèvement a été annoncé le . Le nouveau projet lancé dans la foulée en , ENCODE (Encyclopedia of DNA Elements), donne des résultats importants sur l'ADN non codant humain.
Geometric medianIn geometry, the geometric median of a discrete set of sample points in a Euclidean space is the point minimizing the sum of distances to the sample points. This generalizes the median, which has the property of minimizing the sum of distances for one-dimensional data, and provides a central tendency in higher dimensions. It is also known as the 1-median, spatial median, Euclidean minisum point, or Torricelli point. The geometric median is an important estimator of location in statistics, where it is also known as the L1 estimator (after the L1 norm).
Reference genomeA reference genome (also known as a reference assembly) is a digital nucleic acid sequence database, assembled by scientists as a representative example of the set of genes in one idealized individual organism of a species. As they are assembled from the sequencing of DNA from a number of individual donors, reference genomes do not accurately represent the set of genes of any single individual organism. Instead a reference provides a haploid mosaic of different DNA sequences from each donor.
Bacterial genomeBacterial genomes are generally smaller and less variant in size among species when compared with genomes of eukaryotes. Bacterial genomes can range in size anywhere from about 130 kbp to over 14 Mbp. A study that included, but was not limited to, 478 bacterial genomes, concluded that as genome size increases, the number of genes increases at a disproportionately slower rate in eukaryotes than in non-eukaryotes. Thus, the proportion of non-coding DNA goes up with genome size more quickly in non-bacteria than in bacteria.
Schéma d'approximation en temps polynomialEn informatique, un schéma d'approximation en temps polynomial (en anglais polynomial-time approximation scheme, abrégé en PTAS) est une famille d'algorithmes d'approximation pour des problèmes d'optimisation combinatoire. On dit aussi plus simplement schéma d'approximation polynomial. Le plus souvent, les problèmes d'optimisation combinatoire considérés sont NP-difficiles. Plusieurs variantes des PTAS existent : des définitions plus restrictives comme les EPTAS et FPTAS, ou d'autres qui reposent sur les algorithmes probabilistes comme les PRAS et FPRAS.
Distance d'édition sur les arbresEn informatique théorique, en biochimie et aussi dans des applications, en vision par ordinateur par exemple, la distance d'édition d'arbres (en anglais tree edit distance) est une mesure qui évalue, en termes de nombre de transformations élémentaires, le nombre d'opérations nécessaires et leur coût pour passer d'un arbre à un autre. C'est une notion qui étend, aux arbres, la distance d'édition (ou distance de Levenshtein) entre chaînes de caractères.
Ensemblest un système bio-informatique d'annotation automatique de génomes. C'est un projet conjoint de l'European Bioinformatics Institute (EBI) et du Wellcome Trust Sanger Institute dont l'idée centrale est d'organiser de vastes champs d'information biologique autour de séquences génomiques. Pour chaque génome analysé, Ensembl tente d'identifier par un processus automatique l'ensemble des gènes qu'il contient. Il s'appuie pour cela sur des données de séquences existantes (ARN, protéines), qu'il « raccroche » sur le génome, pour en déduire la structure des gènes.
Séquence codantevignette|Schéma simplifié du dogme central de la biologie moléculaire. Certaines séquences d'ADN subissent une transcription afin de générer un ARN messager primaire. Cet ARNm subit différentes transformations, notamment l'épissage, par lequel les introns sont enlevés, pour générer un transcrit mature. Finalement, les ribosomes traduisent la séquence codante en protéine. La séquence codante est indiquée en vert.
Séquençage shotgunEn génétique, le séquençage shotgun (littéralement séquençage "fusil de chasse") est une méthode utilisée pour séquencer des brins d'ADN aléatoires. On l'appelle ainsi par analogie avec le modèle de tir quasi-aléatoire en pleine expansion d'un fusil de chasse : cette métaphore illustre le caractère aléatoire de la fragmentation initiale de l'ADN génomique où l'on "arrose" tout le génome, un peu comme se dispersent les plombs de ce type d'arme à feu.
Duplication (génétique)En génétique, la duplication génétique correspond à la multiplication de matériel génétique sur un chromosome. Il existe plusieurs mécanismes qui résultent de la duplication soit d'une large portion chromosomique, soit d'un gène ou bien d'une suite nucléotidique. Ces remaniements du génome représentent un moteur important dans l'évolution des génomes. Le doublement d'un gène crée une copie supplémentaire dégagée de la pression de sélection, ce qui peut permettre à la copie de muer à nouveau sans conséquences nuisibles à l'organisme.