Données brutesLes données brutes (aussi connu comme données primaires) sont les données non interprétées émanant d'une source primaire, ayant des caractéristiques liées à celle-ci et qui n'ont été soumises à aucun traitement ou toute autre manipulation. Les données brutes peuvent être entrées dans un programme informatique ou utilisées dans des procédures manuelles telles que l'analyse statistique d'une enquête. Il peut s'agir des données binaires des périphériques de stockage électroniques comme les lecteurs de disque dur.
Problème inversevignette|une somme de plusieurs nombres donne le nombre 27, mais peut-on les deviner à partir de 27 ? En science, un problème inverse est une situation dans laquelle on tente de déterminer les causes d'un phénomène à partir des observations expérimentales de ses effets. Par exemple, en sismologie, la localisation de l'origine d'un tremblement de terre à partir de mesures faites par plusieurs stations sismiques réparties sur la surface du globe terrestre est un problème inverse.
Bruits colorésBien que le bruit soit un signal aléatoire, il possède des propriétés statiques caractéristiques. La densité spectrale de puissance en est une, et peut être utilisée pour distinguer les différents types de bruit. Cette classification par la densité spectrale donne une terminologie de « couleurs ». Chaque type est défini par une couleur. Ces définitions sont, en principe, communes aux différentes disciplines pour lesquelles le bruit est un facteur important (comme l'acoustique, la musique, l'électrotechnique et la physique).
Data PreprocessingData preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.
Validation croiséeLa validation croisée () est, en apprentissage automatique, une méthode d’estimation de fiabilité d’un modèle fondée sur une technique d’échantillonnage. Supposons posséder un modèle statistique avec un ou plusieurs paramètres inconnus, et un ensemble de données d'apprentissage sur lequel on peut apprendre (ou « entraîner ») le modèle. Le processus d'apprentissage optimise les paramètres du modèle afin que celui-ci corresponde le mieux possible aux données d'apprentissage.
RAW (format d'image)thumb|Fonctionnement de la matrice de Bayer. Raw est la désignation générique d'un type de fichier d' issues d’appareils photo numériques ou de scanners. Un fichier Raw contient les données brutes du capteur et les paramètres nécessaires à la transformation en fichier image visible sur écran. Le fichier est plus volumineux que celui au format JPEG, servant le plus souvent à la communication des images, mais il n'a pas subi de transformations irréversibles, ce qui permet de retravailler sans dommage.
Véritéthumb|Walter Seymour Allward, Veritas, 1920 thumb|Nec mergitur ou La Vérité sortant du puits, toile de Édouard Debat-Ponsan, 1898. La vérité (du latin veritas, « vérité », dérivé de verus, « vrai ») est la correspondance entre une proposition et la réalité à laquelle cette proposition réfère. Cependant cette définition correspondantiste de la vérité n'est pas la seule, il existe de nombreuses définitions du mot et des controverses classiques autour des diverses théories de la vérité.
Data wranglingData wrangling, sometimes referred to as data munging, is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate and valuable for a variety of downstream purposes such as analytics. The goal of data wrangling is to assure quality and useful data. Data analysts typically spend the majority of their time in the process of data wrangling compared to the actual analysis of the data.
Radar à pénétration de solvignette|Radar à pénétration de sol en utilisation aux États-Unis, 2010 Un (RPS) (en anglais GPR, acronyme de Ground Penetrating Radar), appelé plus communément ou , est un appareil géophysique utilisant le principe d'un radar que l'on pointe vers le sol pour en étudier la composition et la structure. En général, on utilise la bande des micro-ondes et des ondes radio (VHF/UHF). On peut sonder ainsi une variété de terrains, incluant les calottes glaciaires et les étendues d'eau.
DonnéeUne donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.