Apprentissage de métriquesLa métrique, aussi appelée distance ou similarité, permet de mesurer le degré de parenté de deux éléments d'un même ensemble. Elle est utilisée dans le domaine de l'apprentissage dans des applications de classification ou de régression. La qualité de ces métriques est primordiale pour ces applications, d'où l'existence de méthodes d'apprentissage de distances. Ces méthodes se divisent en plusieurs catégories : supervisées ou non-supervisées selon les données mises à disposition.
Positionnement multidimensionnelLe positionnement multidimensionnel est un ensemble de techniques statistiques utilisées dans le domaine de la visualisation d'information pour explorer les similarités dans les données. Le positionnement multidimentionnel est un cas particulier d'analyse multivariée. Typiquement, un algorithme de positionnement multidimensionnel part d'une matrice de similarité entre tous les points pour affecter à chaque point une position dans un espace à dimensions. Pour = 2 ou = 3, les positions peuvent être visualisées sur un plan ou dans un volume par un nuage de points.
Champ aléatoire conditionnelLes champs aléatoires conditionnels (conditional random fields ou CRFs) sont une classe de modèles statistiques utilisés en reconnaissance des formes et plus généralement en apprentissage statistique. Les CRFs permettent de prendre en compte l'interaction de variables « voisines ». Ils sont souvent utilisés pour des données séquentielles (langage naturel, séquences biologiques, vision par ordinateur). Les CRFs sont un exemple de réseau probabiliste non orienté.
Nuage de points (statistique)A scatter plot (also called a scatterplot, scatter graph, scatter chart, scattergram, or scatter diagram) is a type of plot or mathematical diagram using Cartesian coordinates to display values for typically two variables for a set of data. If the points are coded (color/shape/size), one additional variable can be displayed. The data are displayed as a collection of points, each having the value of one variable determining the position on the horizontal axis and the value of the other variable determining the position on the vertical axis.
Analyse prédictiveL'analyse (ou logique) prédictive englobe une variété de techniques issues des statistiques, d'extraction de connaissances à partir de données et de la théorie des jeux qui analysent des faits présents et passés pour faire des hypothèses prédictives sur des événements futurs. Dans le monde des affaires, des modèles prédictifs exploitent des schémas découverts à l'intérieur des ensembles de données historiques et transactionnelles pour identifier les risques et les opportunités.
Exploratory data analysisIn statistics, exploratory data analysis (EDA) is an approach of analyzing data sets to summarize their main characteristics, often using statistical graphics and other data visualization methods. A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond the formal modeling and thereby contrasts traditional hypothesis testing. Exploratory data analysis has been promoted by John Tukey since 1970 to encourage statisticians to explore the data, and possibly formulate hypotheses that could lead to new data collection and experiments.
Traitement de donnéesEn informatique, le terme traitement de données ou traitement électronique des données renvoie à une série de processus qui permettent d'extraire de l'information ou de produire du savoir à partir de données brutes. Ces processus, une fois programmés, sont le plus souvent automatisés à l'aide d'ordinateurs. Si les résultats finaux produits par ces processus sont destinés à des humains, leur présentation est souvent essentielle pour en apprécier la valeur. Cette appréciation est cependant variable selon les personnes.
Exploration de donnéesL’exploration de données, connue aussi sous l'expression de fouille de données, forage de données, prospection de données, data mining, ou encore extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.
Latent variable modelA latent variable model is a statistical model that relates a set of observable variables (also called manifest variables or indicators) to a set of latent variables. It is assumed that the responses on the indicators or manifest variables are the result of an individual's position on the latent variable(s), and that the manifest variables have nothing in common after controlling for the latent variable (local independence).
Algorithme espérance-maximisationL'algorithme espérance-maximisation (en anglais expectation-maximization algorithm, souvent abrégé EM) est un algorithme itératif qui permet de trouver les paramètres du maximum de vraisemblance d'un modèle probabiliste lorsque ce dernier dépend de variables latentes non observables. Il a été proposé par Dempster et al. en 1977. De nombreuses variantes ont par la suite été proposées, formant une classe entière d'algorithmes.