Sequence analysisIn bioinformatics, sequence analysis is the process of subjecting a DNA, RNA or peptide sequence to any of a wide range of analytical methods to understand its features, function, structure, or evolution. Methodologies used include sequence alignment, searches against biological databases, and others. Since the development of methods of high-throughput production of gene and protein sequences, the rate of addition of new sequences to the databases increased very rapidly.
UniProtUniProt est une base de données de séquences de protéines. Son nom dérive de la contraction de Universal Protein Resource (base de données universelle de protéines). C'est une base de données ouverte, stable et accessible en ligne, elle est issue de la consolidation de l'ensemble des données produites par la communauté scientifique. UniProt est une base annotée, hiérarchisée où chaque séquence est accompagnée d'un ensemble riche de métadonnées et de liens vers de nombreuses autres bases de données : bibliographiques, phylogénétiques, nucléotidiques.
Base de données relationnellethumb|upright=1.2|Structure générale d'une base de données relationnelle. En informatique, une base de données relationnelle (en anglais: relational database management system (RDBMS)) est une base de données où l'information est organisée dans des tableaux à deux dimensions appelés des relations ou tables, selon le modèle introduit par Edgar F. Codd en 1960. Selon ce modèle relationnel, une base de données consiste en une ou plusieurs relations. Les lignes de ces relations sont appelées des nuplets ou enregistrements.
Séquence (acide nucléique)vignette| Séquence d'un ARN messager faisant apparaître ses codons. La séquence d'un acide nucléique — ADN ou ARN — est la succession des nucléotides qui le constituent. Cette succession contient l'information génétique portée par ces polynucléotides, de sorte qu'on la qualifie également de séquence génétique ou parfois de séquence nucléotidique. Elle peut être déterminée par des méthodes de séquençage de l'ADN. Les séquences nucléotidiques sont conventionnellement écrites dans le sens , qui est celui dans lequel sont lues et synthétisées ces biomolécules.
Séquence conservéeEn biologie de l'évolution, les séquences conservées sont des séquences d'acides nucléiques (ADN et ARN) ou d'acide aminés identiques ou similaires au sein d'un génome (on parle alors de séquences paralogues) ; à travers les espèces (on parle alors de séquences orthologues), ou bien encore entre un taxon donneur et un taxon récepteur (on parle alors de séquences xénologues). La conservation indique qu'une séquence a été maintenue par la sélection naturelle.
In-memory databaseAn in-memory database (IMDB, or main memory database system (MMDB) or memory resident database) is a database management system that primarily relies on main memory for computer data storage. It is contrasted with database management systems that employ a disk storage mechanism. In-memory databases are faster than disk-optimized databases because disk access is slower than memory access and the internal optimization algorithms are simpler and execute fewer CPU instructions.
Structure primairevignette|Structure des protéines, en particulier la structure primaire En biochimie, la structure primaire d'une biomolécule non-ramifiée comme une protéine ou un brin d'ADN ou d'ARN, est la séquence de nucléotides ou d'acides aminés du début à la fin de la molécule. Autrement dit, la structure primaire représente l'exacte composition chimique et la séquence de ses sous-unités monomériques. La structure primaire d'un polymère biologique détermine largement sa forme tridimensionnelle, connue sous le nom de structure tertiaire.
Séquençage de l'ADNcadre|Résultat du séquençage par la méthode de Sanger. L'ordre de chaque bande indique la position d'un nucléotide A,T,C ou G Le séquençage de l'ADN consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné. La séquence d’ADN contient l’information nécessaire aux êtres vivants pour survivre et se reproduire. Déterminer cette séquence est donc utile aussi bien pour les recherches visant à savoir comment vivent les organismes que pour des sujets appliqués.
Pfamvignette|Logo de la Pfam. Pfam est une base de données bio-informatique de familles de protéines qui classe diverses propriétés des domaines protéiques sur la base de leurs . Créée en 1997 par les bio-informaticiens Erik Sonnhammer de l'institut Karolinska à Stockholm, Sean Eddy de l'université Washington à Saint-Louis (Missouri) et Richard Durbin du centre Sanger à Cambridge, elle fournit notamment des informations sur l'architecture des domaines protéiques, leur distribution parmi les espèces vivantes, les liens vers d'autres bases de données et les structures connues de protéines de ces familles.
Polymorphisme nucléotidiquevignette|La molécule d'ADN 1 diffère de la 2 par un seul nucléotide (polymorphisme C/T). Le polymorphisme nucléotidique (PN, ou polymorphisme d'un seul nucléotide, PSN ; single nucleotide polymorphism, SNP) est, en génétique, la variation (polymorphisme) d'une seule paire de bases du génome entre individus d'une même espèce, ou entre un individu et la séquence de référence de l'espèce. La variation doit être située à un endroit spécifique du génome et apparaître sur une proportion supérieure à 1 % de la population pour être caractérisée comme PSN.