PerceptronLe perceptron est un algorithme d'apprentissage supervisé de classifieurs binaires (c'est-à-dire séparant deux classes). Il a été inventé en 1957 par Frank Rosenblatt au laboratoire d'aéronautique de l'université Cornell. Il s'agit d'un neurone formel muni d'une règle d'apprentissage qui permet de déterminer automatiquement les poids synaptiques de manière à séparer un problème d'apprentissage supervisé. Si le problème est linéairement séparable, un théorème assure que la règle du perceptron permet de trouver une séparatrice entre les deux classes.
Bayesian epistemologyBayesian epistemology is a formal approach to various topics in epistemology that has its roots in Thomas Bayes' work in the field of probability theory. One advantage of its formal method in contrast to traditional epistemology is that its concepts and theorems can be defined with a high degree of precision. It is based on the idea that beliefs can be interpreted as subjective probabilities. As such, they are subject to the laws of probability theory, which act as the norms of rationality.
Evaluation of binary classifiersThe evaluation of binary classifiers compares two methods of assigning a binary attribute, one of which is usually a standard method and the other is being investigated. There are many metrics that can be used to measure the performance of a classifier or predictor; different fields have different preferences for specific metrics due to different goals. For example, in medicine sensitivity and specificity are often used, while in computer science precision and recall are preferred.
Decision boundaryNOTOC In a statistical-classification problem with two classes, a decision boundary or decision surface is a hypersurface that partitions the underlying vector space into two sets, one for each class. The classifier will classify all the points on one side of the decision boundary as belonging to one class and all those on the other side as belonging to the other class. A decision boundary is the region of a problem space in which the output label of a classifier is ambiguous.
Matrice de confusionEn apprentissage automatique supervisé, la matrice de confusion est une matrice qui mesure la qualité d'un système de classification. Chaque ligne correspond à une classe réelle, chaque colonne correspond à une classe estimée. La cellule ligne L, colonne C contient le nombre d'éléments de la classe réelle L qui ont été estimés comme appartenant à la classe C. Attention il y a parfois interversion des axes de la matrice en fonction des auteurs.
Fichage des populationsLe fichage des populations consiste à recueillir et à conserver des renseignements sur des personnes à des fins administratives, de surveillance ou d'identification. Les États, les entreprises et plus généralement les organisations sociales pratiquent, en fonction de leurs besoins et volontés politiques, le fichage des populations, des employés, des clients, des minorités, des délinquants, des terroristes ou autres catégories sociales. Le fichage ADN ou le fichage ethnique en sont des exemples.
Dirichlet negative multinomial distributionIn probability theory and statistics, the Dirichlet negative multinomial distribution is a multivariate distribution on the non-negative integers. It is a multivariate extension of the beta negative binomial distribution. It is also a generalization of the negative multinomial distribution (NM(k, p)) allowing for heterogeneity or overdispersion to the probability vector. It is used in quantitative marketing research to flexibly model the number of household transactions across multiple brands.
Filtrage bayésien du spamLe filtrage bayésien du spam (en référence au théorème de Bayes) est une technique statistique de détection de pourriels s'appuyant sur la classification naïve bayésienne. Les filtres bayésiens fonctionnent en établissant une corrélation entre la présence de certains éléments (en général des mots, parfois d'autres choses) dans un message et le fait qu'ils apparaissent en général dans des messages indésirables (spam) ou dans des messages légitimes (ham) pour calculer la probabilité que ce message soit un spam.
Kappa de CohenEn statistique, la méthode du κ (kappa) mesure l’accord entre observateurs lors d'un codage qualitatif en catégories. L'article introduisant le κ a pour auteur Jacob Cohen – d'où sa désignation de κ de Cohen – et est paru dans le journal Educational and Psychological Measurement en 1960. Le κ est une mesure d'accord entre deux codeurs seulement. Pour une mesure de l'accord entre plus de deux codeurs, on utilise le κ de Fleiss (1981). Le calcul du κ se fait de la manière suivante : où Pr(a) est la proportion de l'accord entre codeurs et Pr(e) la probabilité d'un accord aléatoire.