Data PreprocessingData preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.
Analyse des donnéesL’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.
Spectrométrie de massethumb|right|Spectromètre de masse La spectrométrie de masse est une technique physique d'analyse permettant de détecter et d'identifier des molécules d’intérêt par mesure de leur masse, et de caractériser leur structure chimique. Son principe réside dans la séparation en phase gazeuse de molécules chargées (ions) en fonction de leur rapport masse/charge (m/z). Elle est utilisée dans pratiquement tous les domaines scientifiques : physique, astrophysique, chimie en phase gazeuse, chimie organique, dosages, biologie, médecine, archéologie.
Ionisation par électronébuliseurthumb|Électronébuliseur L'ionisation par électronébuliseur ou ESI (de l'anglais en) est la dispersion d’un liquide sous forme de gouttelettes chargées électriquement. L'ionisation par électronébuliseur combine deux processus : formation des gouttelettes chargement des gouttelettes. La nébulisation des solutions par ESI est obtenue par une méthode électrostatique, i.e. en appliquant une différence de potentiel élevée (entre ±3 et ±5 kV) entre l’extrémité de l’émetteur (tube capillaire en acier inoxydable, jonction liquide) et un orifice situé à proximité.
DonnéeUne donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.
Entrepôt de donnéesvignette|redresse=1.5|Vue d'ensemble d'une architecture entrepôt de données. Le terme entrepôt de données ou EDD (ou base de données décisionnelle ; en anglais, data warehouse ou DWH) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles et fournir ainsi un socle à l'aide à la décision en entreprise. Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise.
Spectroscopie infrarougethumb|Un spectromètre infrarouge. La spectroscopie infrarouge (parfois désignée comme spectroscopie IR) est une classe de spectroscopie qui traite de la région infrarouge du spectre électromagnétique. Elle recouvre une large gamme de techniques, la plus commune étant un type de spectroscopie d'absorption. Comme pour toutes les techniques de spectroscopie, elle peut être employée pour l'identification de composés ou pour déterminer la composition d'un échantillon.
Traitement de donnéesEn informatique, le terme traitement de données ou traitement électronique des données renvoie à une série de processus qui permettent d'extraire de l'information ou de produire du savoir à partir de données brutes. Ces processus, une fois programmés, sont le plus souvent automatisés à l'aide d'ordinateurs. Si les résultats finaux produits par ces processus sont destinés à des humains, leur présentation est souvent essentielle pour en apprécier la valeur. Cette appréciation est cependant variable selon les personnes.
Modèle de donnéesEn informatique, un modèle de données est un modèle qui décrit la manière dont sont représentées les données dans une organisation métier, un système d'information ou une base de données. Le terme modèle de données peut avoir deux significations : Un modèle de données théorique, c'est-à-dire une description formelle ou un modèle mathématique. Voir aussi modèle de base de données Un modèle de données instance, c'est-à-dire qui applique un modèle de données théorique (modélisation des données) pour créer un modèle de données instance.
Désorption-ionisation par électronébulisationLa désorption-ionisation par électronébulisation (en, DESI) est une méthode d’ionisation communément utilisée en spectrométrie de masse. Cette méthode permet l’ionisation d’une grande variété de composés, incluant les peptides et les protéines présents dans les métaux, les polymères et la surface des minéraux. La DESI a même permis l’imagerie de tissus intacts de cerveau de rat sous des conditions ambiantes. Tout d’abord, la DESI est une méthode instrumentale regroupant les aspects de l’ESI (Electrospray Ionization) et de la famille des méthodes DI (Desorption Ionization).