thumb|Nuage de points du jeu de données Le jeu de données Iris connu aussi sous le nom de Iris de Fisher ou Iris d'Anderson est un jeu de données multivariées présenté en 1936 par Ronald Fisher dans son papier The use of multiple measurements in taxonomic problems comme un exemple d'application de l'analyse discriminante linéaire. Les données ont été collectées par Edgar Anderson afin de quantifier les variations de morphologie des fleurs d'iris de trois espèces. Deux des trois espèces ont été collectées en Gaspésie. Le jeu de données comprend 50 échantillons de chacune des trois espèces d'iris (Iris setosa, Iris virginica et Iris versicolor). Quatre caractéristiques ont été mesurées à partir de chaque échantillon : la longueur et la largeur des sépales et des pétales, en centimètres. Sur la base de la combinaison de ces quatre variables, Fisher a élaboré un modèle d'analyse discriminante linéaire permettant de distinguer les espèces les unes des autres. thumb|Les résultats de l'utilisation de k-means sont insatisfaisants (les classes obtenues ne coïncident pas avec les espèces connues). left|thumb| Un exemple de ce qu'on appelle la metro map pour le jeu de données Iris. Seule une petite proportion des Iris virginica est mélangée avec les Iris versicolor. Tous les autres échantillons de différentes espèces Iris appartiennent à des nœuds différents. Utilisé à l'origine comme exemple pour l'application de l'analyse linéaire discriminante de Fisher, ce jeu de données est devenu un cas typique pour de nombreuses techniques de classification automatique en apprentissage automatique (machine learning) tel que les machines à vecteurs de support (SVM). L'utilisation de cet ensemble de données dans l'analyse est cependant rare, puisqu'il ne contient que deux clusters avec une séparation plutôt évidente. L'un des groupes contient lIris setosa, tandis que l'autre groupe contient à la fois lIris virginica et lIris versicolor; ce dernier groupe n'étant pas séparable sans information sur l’espèce que Fisher a utilisée.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (8)
CS-502: Deep learning in biomedicine
Deep learning offers potential to transform biomedical research. In this course, we will cover recent deep learning methods and learn how to apply these methods to problems in biomedical domain.
PHYS-467: Machine learning for physicists
Machine learning and data analysis are becoming increasingly central in sciences including physics. In this course, fundamental principles and methods of machine learning will be introduced and practi
BIO-645: Introduction to Applied Data Science (I2ADS)
The "Introduction to Applied Data Science" (I2ADS) course is aimed at students of all levels to train them in the core computer science software stack and techniques forming the pillars of open & repr
Afficher plus
Séances de cours associées (32)
Paradigme d'apprentissage profond
Explore le paradigme de l'apprentissage profond, y compris les défis, les réseaux neuronaux, la robustesse, l'équité, l'interprétabilité et l'efficacité énergétique.
Régression du noyau
Couvre le concept de régression du noyau et rend les données linéairement séparables en ajoutant des fonctionnalités et en utilisant des méthodes locales.
Regroupement: K-means & LDA
Couvre le clustering en utilisant les propriétés K-means et LDA, PCA, K-means, Fisher LDA et le clustering spectral.
Afficher plus
Publications associées (34)

Self-Supervised Bayesian representation learning of acoustic emissions from laser powder bed Fusion process for in-situ monitoring

Christian Leinenbach, Sergey Shevchik, Rafal Wróbel, Marc Leparoux

This study presents a self-supervised Bayesian Neural Network (BNN) framework using air-borne Acoustic Emission (AE) to identify different Laser Powder Bed Fusion (LPBF) process regimes such as Lack of Fusion, conduction mode, and keyhole without ground-tr ...
London2023

Bias at a Second Glance: A Deep Dive into Bias for German Educational Peer-Review Data Modeling

Vinitra Swamy, Thiemo Wambsganss

Natural Language Processing (NLP) has become increasingly utilized to provide adaptivity in educational applications. However, recent research has highlighted a variety of biases in pre-trained language models. While existing studies investigate bias in di ...
2022

Adaptive and Robust Partition Learning for Person Retrieval With Policy Gradient

Zhen Wei, Zhiye Wang, Peixia Li

Person retrieval aims at effectively matching the pedestrian images over an extensive database given a specified identity. As extracting effective features is crucial in a high-performance retrieval system, recent significant progress was achieved by part- ...
IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC2021
Afficher plus
Unités associées (1)
Concepts associés (3)
K-moyennes
Le partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Analyse discriminante linéaire
En statistique, l’analyse discriminante linéaire ou ADL (en anglais, linear discriminant analysis ou LDA) fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide de variables prédictives. Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de déterminer l’appartenance de puces à telle ou telle espèce à partir de la largeur et de l’angle de son édéage (partie des organes génitaux mâles de l'insecte.
Partitionnement de données
vignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.