Model selectionModel selection is the task of selecting a model from among various candidates on the basis of performance criterion to choose the best one. In the context of learning, this may be the selection of a statistical model from a set of candidate models, given data. In the simplest cases, a pre-existing set of data is considered. However, the task can also involve the design of experiments such that the data collected is well-suited to the problem of model selection.
Modèle génératifvignette|Schéma représentant la différence entre un modèle discriminatif et un modèle génératif. En classement automatique un modèle génératif est un modèle statistique défini par opposition à un modèle discriminatif. Étant donné une variable X à laquelle il doit associer une autre variable Y, le modèle génératif cherchera à décrire la probabilité conditionnelle ainsi que la probabilité puis d'utiliser la formule de Bayes pour calculer la probabilité .
Data wranglingData wrangling, sometimes referred to as data munging, is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate and valuable for a variety of downstream purposes such as analytics. The goal of data wrangling is to assure quality and useful data. Data analysts typically spend the majority of their time in the process of data wrangling compared to the actual analysis of the data.
Jeux d'entrainement, de validation et de testEn apprentissage automatique, une tâche courante est l'étude et la construction d'algorithmes qui peuvent apprendre et faire des prédictions sur les données. De tels algorithmes fonctionnent en faisant des prédictions ou des décisions basées sur les données, en construisant un modèle mathématique à partir des données d'entrée. Ces données d'entrée utilisées pour construire le modèle sont généralement divisées en plusieurs jeux de données .
Science des donnéesLa science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
Espècevignette| redresse=1.2| L'espèce est l'unité de base de la classification du vivant. Dans les sciences du vivant, l’espèce (du latin species, « type » ou « apparence ») est le taxon de base de la systématique. La définition la plus communément admise est celle du concept biologique : une espèce est un ensemble d'individus qui peuvent effectivement ou potentiellement se reproduire entre eux et engendrer une descendance viable et féconde, dans des conditions naturelles.
Espèce envahissantevignette|Renouée du Japon et autres plantes exotiques envahissantes qui affectent les écosystèmes indigènes. thumb| Miconia calvescens, originaire d'Amérique centrale est pointée dans l'accélération de l'érosion de la biodiversité d'archipels du Pacifique comme Hawaii. thumb|En Europe, les (Trachemys spp.) et autres émydidées nord-américaines relâchées par leurs propriétaires dans la nature pourraient concurrencer les espèces natives comme la cistude.
Aire de répartitionvignette|Exemples d'aires de répartition d'espèces vivantes. L’aire de répartition, appelée aussi aire de distribution ou simplement distribution, est la zone délimitant la répartition géographique d'une espèce vivante ou de toute autre unité taxonomique qui inclut la totalité de ses populations. L'aire d'une espèce peut être continue ou au contraire disjointe (répartition en métapopulations). L'étude descriptive de la répartition géographique des espèces vivantes est la géonémie et celle explicative de ses causes est la chorologie.
Régression de PoissonEn statistique, la régression de Poisson est un modèle linéaire généralisé utilisé pour les données de comptage et les tableaux de contingence. Cette régression suppose que la variable réponse Y suit une loi de Poisson et que le logarithme de son espérance peut être modélisé par une combinaison linéaire de paramètre inconnus. Soit un vecteur de variables indépendantes, et la variable que l'on cherche à prédire. Réaliser une régression de Poisson revient à supposer que suit une loi de Poisson de paramètre , avec et les paramètres de la régression à estimer, et le produit scalaire standard de .
L'Origine des espècesL'Origine des espèces (On the Origin of Species) est un ouvrage scientifique de Charles Darwin, publié le pour sa première édition anglaise sous le titre L'origine des espèces au moyen de la sélection naturelle ou la préservation des races favorisées dans la lutte pour la survie. Cet ouvrage est considéré comme le texte fondateur de la théorie de l'évolution. Dans ce livre, Darwin présente la théorie scientifique de l'évolution des espèces vivantes à partir d'autres espèces généralement éteintes, au moyen de la sélection naturelle.