Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Determining the number of clusters in a data setDetermining the number of clusters in a data set, a quantity often labelled k as in the k-means algorithm, is a frequent problem in data clustering, and is a distinct issue from the process of actually solving the clustering problem. For a certain class of clustering algorithms (in particular k-means, k-medoids and expectation–maximization algorithm), there is a parameter commonly referred to as k that specifies the number of clusters to detect.
Sélection de caractéristiqueLa sélection de caractéristique (ou sélection d'attribut ou de variable) est un processus utilisé en apprentissage automatique et en traitement de données. Il consiste, étant donné des données dans un espace de grande dimension, à trouver un sous-sensemble de variables pertinentes. C'est-à-dire que l'on cherche à minimiser la perte d'information venant de la suppression de toutes les autres variables. C'est une méthode de réduction de la dimensionnalité. Extraction de caractéristique Catégorie:Apprentissage
Weighted least squaresWeighted least squares (WLS), also known as weighted linear regression, is a generalization of ordinary least squares and linear regression in which knowledge of the unequal variance of observations (heteroscedasticity) is incorporated into the regression. WLS is also a specialization of generalized least squares, when all the off-diagonal entries of the covariance matrix of the errors, are null.
Surapprentissagevignette|300x300px|La ligne verte représente un modèle surappris et la ligne noire représente un modèle régulier. La ligne verte classifie trop parfaitement les données d'entrainement, elle généralise mal et donnera de mauvaises prévisions futures avec de nouvelles données. Le modèle vert est donc finalement moins bon que le noir. En statistique, le surapprentissage, ou sur-ajustement, ou encore surinterprétation (en anglais « overfitting »), est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données.
Moyenne arithmétiqueEn mathématiques, la moyenne arithmétique d'une liste de nombres réels est la somme des valeurs divisée par le nombre de valeurs. Il s’agit de la moyenne au sens usuel du terme, sans coefficients, l’adjectif « arithmétique » la distinguant d’autres moyennes mathématiques moins courantes. La moyenne peut être notée à l’aide de son initiale m, M ou avec la lettre grecque correspondante μ. Lorsque la moyenne est calculée sur une liste notée (x, x, ... , x), on la note habituellement à l’aide du diacritique macron, caractère unicode u+0304.
Convergence uniformeLa convergence uniforme d'une suite de fonctions est une forme de convergence plus exigeante que la convergence simple. La convergence devient uniforme quand toutes les suites avancent vers leur limite respective avec une sorte de « mouvement d'ensemble ». Dans le cas de fonctions numériques d'une variable, la notion prend une forme d'« évidence » géométrique : le graphe de la fonction f se « rapproche » de celui de la limite. Soient X un ensemble, (Y, d) un espace métrique, et A un sous-ensemble de X.
Rendement (physique)En physique, le rendement est défini comme une grandeur sans dimension qui caractérise l'efficacité d'une transformation, physique ou chimique. En physique, la grandeur caractérise généralement la conversion d'une forme d'énergie en une autre. Pour un système réalisant une conversion d'énergie (transformateur, moteur, pompe à chaleur), le rendement est défini par certains auteurs comme étant le rapport entre l'énergie recueillie en sortie et l'énergie fournie en entrée, qui confond alors les termes d'efficacité thermodynamique et de rendement thermodynamique.
Efficacité énergétique (thermodynamique)En physique et ingénierie mécanique, l'efficacité énergétique (ou efficacité thermodynamique) est un nombre sans dimension, qui est le rapport entre ce qui peut être récupéré utilement de la machine sur ce qui a été dépensé pour la faire fonctionner. Aux États-Unis, pour les appareils et équipements résidentiels, elle est déterminée par le facteur énergétique (energy factor). Cette notion est souvent confondue avec une définition du rendement thermodynamique, pour des systèmes dont l'efficacité énergétique théorique maximale est inférieure à un, comme les moteurs dithermes ou les moteurs électriques.