Lipideredresse=1.33|vignette|Phosphatidylcholine, un phosphoglycéride constitué d'un résidu glycérol (en noir) estérifié par la phosphocholine (en rouge), l'acide palmitique (en bleu) et l'acide oléique (en vert). redresse=1.33|vignette|Représentation schématique de la « tête polaire » 1 et des « queues apolaires » 2 de molécules amphiphiles de phosphoglycérides. redresse=1.33|vignette|Les phospholipides peuvent s'auto-assembler en milieu aqueux pour former des liposomes, des micelles ou des bicouches lipidiques.
Structure secondairethumb|200px|Schéma de la structure tridimensionnelle de la protéine myoglobine. Cette structure contient de hélices α mais pas de feuillets β. Cette protéine est la première dont la structure a été résolue par cristallographie en 1958, par Max Perutz et John Kendrew, ce qui leur a valu l'attribution du prix Nobel de chimie en 1962. En biochimie et en biologie structurale, la structure secondaire se rapporte uniquement à la description de la structure tridimensionnelle localement adoptée par certains segments de molécules biologiques (molécules définies comme étant des biopolymères, comme c’est le cas pour les protéines et les acides nucléiques (ADN/ARN)).
GroELLa protéine GroEL appartient à la famille des chaperonines des molécules chaperonnes, et se trouve chez un grand nombre de bactéries. Elle est nécessaire pour le repliement efficace de nombreuses protéines. Afin de fonctionner efficacement, GroEL requiert le complexe protéique couvercle associé GroES. Chez les eucaryotes, les protéines Hsp60 et Hsp10 sont structurellement et fonctionnellement presque identiques à GroEL et GroES, respectivement. Chez l'homme, la protéine GroEL est un dodécamère en forme de ballon de rugby et est codée par le gène HSPD1, situé sur le .
Analyse des donnéesL’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.
Entrepôt de donnéesvignette|redresse=1.5|Vue d'ensemble d'une architecture entrepôt de données. Le terme entrepôt de données ou EDD (ou base de données décisionnelle ; en anglais, data warehouse ou DWH) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles et fournir ainsi un socle à l'aide à la décision en entreprise. Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise.
Repliement des protéinesthumb|right|300px|Repliement des protéines Le repliement des protéines est le processus physique par lequel un polypeptide se replie dans sa structure tridimensionnelle caractéristique dans laquelle il est fonctionnel. Chaque protéine commence sous forme de polypeptide, transcodée depuis une séquence d'ARNm en une chaîne linéaire d'acides aminés. Ce polypeptide ne possède pas à ce moment de structure tridimensionnelle développée (voir côté gauche de la figure).
Globule fonduUn globule fondu est un état stable de protéine partiellement repliée que l'on trouve dans des conditions douces de dénaturation comme un pH faible (généralement égal à 2), modérément dénaturant ou à haute température. Les globules fondus sont effondrés sur eux-mêmes et possèdent généralement une structure secondaire semblable à celle de l'état natif mais une structure tertiaire dynamique comme le montre la spectroscopie par dichroïsme circulaire respectivement lointaine ou proche.
Pelote aléatoireUne pelote aléatoire est une conformation d'un polymère dans laquelle les unités monomères sont orientées de façon aléatoire, en étant néanmoins liées aux unités adjacentes. Il ne s'agit pas d'une forme précise, mais d'une répartition statistique de formes pour toutes les chaînes dans une population de macromolécules. Le nom de cette conformation provient de l'idée que, en l'absence d'interactions spécifiques, stabilisantes, une chaîne polymère va « échantillonner » toutes les conformations possibles de manière aléatoire.
Structure des protéinesLa structure des protéines est la composition en acides aminés et la conformation en trois dimensions des protéines. Elle décrit la position relative des différents atomes qui composent une protéine donnée. Les protéines sont des macromolécules de la cellule, dont elles constituent la « boîte à outils », lui permettant de digérer sa nourriture, produire son énergie, de fabriquer ses constituants, de se déplacer, etc. Elles se composent d'un enchaînement linéaire d'acides aminés liés par des liaisons peptidiques.
Data PreprocessingData preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.