Science des donnéesLa science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
Corrélation croiséeLa corrélation croisée est parfois utilisée en statistique pour désigner la covariance des vecteurs aléatoires X et Y, afin de distinguer ce concept de la « covariance » d'un vecteur aléatoire, laquelle est comprise comme étant la matrice de covariance des coordonnées du vecteur. En traitement du signal, la corrélation croisée (aussi appelée covariance croisée) est la mesure de la similitude entre deux signaux.
Dépression endogamiqueLa dépression endogamique, ou dépression de consanguinité, est la réduction de la valeur sélective d'une population donnée liée à la reproduction entre individus apparentés. La reproduction entre individus étroitement apparentés, ou consanguinité, fait apparaître plus de caractères récessifs délétères. Plus les géniteurs sont apparentés et plus les descendants portent des gènes homozygotes délétères, donnant des individus inaptes.
Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
ÉpistasieEn génétique, l'épistasie désigne l'interaction existant entre deux ou plusieurs gènes. Cela s'oppose à l'idée simpliste qui voudrait qu'un individu ne soit que la somme de l'ensemble de ses gènes. Il y a par exemple épistasie lorsqu'un ou plusieurs gènes (dominants ou récessifs) masquent ou empêchent l'expression de facteurs situés à d'autres lieux génétiques (locus). L'existence de gènes dominants ou récessifs a été mise en évidence par Mendel dès le milieu du 19e siècle, mais le terme d'épistasie n'est introduit formellement qu'en 1907 par Bateson.
Gestion de configuration logicielleLa gestion de configuration logicielle est une discipline du génie logiciel ayant pour objet de répondre à la question : quelqu'un a obtenu un résultat. Comment le reproduire ? Le plus souvent, il ne s'agit pas de reproduire à l'identique, mais de reproduire avec des modifications incrémentales. La question est donc de comparer des résultats et d'analyser leurs différences. La gestion de configuration logicielle se révèle comme un outil de communication sophistiqué entre des acteurs indépendants, contribuant à l'édification de systèmes ouverts.
Exploratory data analysisIn statistics, exploratory data analysis (EDA) is an approach of analyzing data sets to summarize their main characteristics, often using statistical graphics and other data visualization methods. A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond the formal modeling and thereby contrasts traditional hypothesis testing. Exploratory data analysis has been promoted by John Tukey since 1970 to encourage statisticians to explore the data, and possibly formulate hypotheses that could lead to new data collection and experiments.
Élément chimiquevignette| redresse=1.6| Échantillons des corps simples, classés selon le tableau périodique. Ceux qui manquent dans le tableau sont trop radioactifs pour être présentés en toute sécurité. Un élément chimique est la classe des atomes dont le noyau compte un même nombre de protons. Ce nombre, noté Z, est le numéro atomique de l'élément, qui détermine la configuration électronique des atomes correspondants, et donc leurs propriétés physicochimiques. Ces atomes peuvent en revanche compter un nombre variable de neutrons dans leur noyau, ce qu'on appelle des isotopes.
Data dredgingvignette|Exemple de Data dredging. Le data dredging (littéralement le dragage de données mais mieux traduit comme étant du triturage de données) est une technique statistique qui . Une des formes du data dredging est de partir de données ayant un grand nombre de variables et un grand nombre de résultats, et de choisir les associations qui sont « statistiquement significatives », au sens de la valeur p (on parle aussi de p-hacking).
Entrepôt de donnéesvignette|redresse=1.5|Vue d'ensemble d'une architecture entrepôt de données. Le terme entrepôt de données ou EDD (ou base de données décisionnelle ; en anglais, data warehouse ou DWH) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles et fournir ainsi un socle à l'aide à la décision en entreprise. Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise.