Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Fonction gaussiennevignette|Fonction gaussienne pour μ = 0, σ = 1 ; courbe centrée en zéro. Une fonction gaussienne est une fonction en exponentielle de l'opposé du carré de l'abscisse (une fonction en exp(-x)). Elle a une forme caractéristique de courbe en cloche. L'exemple le plus connu est la densité de probabilité de la loi normale où μ est l'espérance mathématique et σ est l'écart type. Les fonctions gaussiennes sont analytiques, de limite nulle en l'infini. La largeur à mi-hauteur H vaut la demi-largeur à mi-hauteur vaut donc environ 1,177·σ.
Champ multi-configurationnel auto-cohérentLe champ multi-configurationnel auto-cohérent (Multi-configurational self-consistent field - MCSCF) est une méthode de chimie quantique utilisée pour générer qualitativement des états de référence corrects pour des molécules dans les cas où la méthode de Hartree-Fock et la théorie de la fonctionnelle de la densité ne sont pas pertinentes (comme pour les états fondamentaux moléculaires qui sont dégénérés avec des états excités bas ou dans les situations de rupture de liaisons).
Dérivation automatiqueEn mathématique et en calcul formel, la dérivation automatique (DA), également appelé dérivation algorithmique, dérivation formelle, ou auto-dérivation est un ensemble de techniques d'évaluation de la dérivée d'une fonction par un programme informatique. La dérivation automatique exploite le fait que chaque programme informatique, aussi compliqué soit-il, exécute une séquence d'opérations arithmétiques élémentaires (addition, soustraction, multiplication, division, etc.) et des fonctions élémentaires (exp, log,sin, cos, etc.
Robust regressionIn robust statistics, robust regression seeks to overcome some limitations of traditional regression analysis. A regression analysis models the relationship between one or more independent variables and a dependent variable. Standard types of regression, such as ordinary least squares, have favourable properties if their underlying assumptions are true, but can give misleading results otherwise (i.e. are not robust to assumption violations).
Automated machine learningAutomated machine learning (AutoML) is the process of automating the tasks of applying machine learning to real-world problems. AutoML potentially includes every stage from beginning with a raw dataset to building a machine learning model ready for deployment. AutoML was proposed as an artificial intelligence-based solution to the growing challenge of applying machine learning. The high degree of automation in AutoML aims to allow non-experts to make use of machine learning models and techniques without requiring them to become experts in machine learning.
Variété différentielleEn mathématiques, les variétés différentielles ou variétés différentiables sont les objets de base de la topologie différentielle et de la géométrie différentielle. Il s'agit de variétés, « espaces courbes » localement modelés sur l'espace euclidien de dimension n, sur lesquelles il est possible de généraliser une bonne part des opérations du calcul différentiel et intégral. Une variété différentielle se définit donc d'abord par la donnée d'une variété topologique, espace topologique localement homéomorphe à l'espace R.
Analyse discriminante linéaireEn statistique, l’analyse discriminante linéaire ou ADL (en anglais, linear discriminant analysis ou LDA) fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide de variables prédictives. Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de déterminer l’appartenance de puces à telle ou telle espèce à partir de la largeur et de l’angle de son édéage (partie des organes génitaux mâles de l'insecte.
Multilevel modelMultilevel models (also known as hierarchical linear models, linear mixed-effect model, mixed models, nested data models, random coefficient, random-effects models, random parameter models, or split-plot designs) are statistical models of parameters that vary at more than one level. An example could be a model of student performance that contains measures for individual students as well as measures for classrooms within which the students are grouped.