AnalysisAnalysis (: analyses) is the process of breaking a complex topic or substance into smaller parts in order to gain a better understanding of it. The technique has been applied in the study of mathematics and logic since before Aristotle (384–322 B.C.), though analysis as a formal concept is a relatively recent development. The word comes from the Ancient Greek ἀνάλυσις (analysis, "a breaking-up" or "an untying;" from ana- "up, throughout" and lysis "a loosening"). From it also comes the word's plural, analyses.
Weka (informatique)Weka (acronyme pour Waikato environment for knowledge analysis, en français : « environnement Waikato pour l'analyse de connaissances ») est une suite de logiciels d'apprentissage automatique écrite en Java et développée à l'université de Waikato en Nouvelle-Zélande. Weka est un logiciel libre disponible sous la Licence publique générale GNU (GPL). L'espace de travail Weka contient une collection d'outils de visualisation et d'algorithmes pour l'analyse des données et la modélisation prédictive, allié à une interface graphique pour un accès facile de ses fonctionnalités.
Informations non structuréesLes informations non structurées ou données non structurées sont des données représentées ou stockées sans format prédéfini. Ces informations sont toujours destinées à des humains. Elles sont typiquement constituées de documents textes ou multimédias, mais peuvent également contenir des dates, des nombres et des faits. Cette absence de format entraîne des irrégularités et des ambiguïtés qui peuvent rendre difficile la compréhension des données, contrairement au cas des données stockées dans des tableurs ou des bases de données par exemple, qui sont des informations structurées.
Nettoyage de donnéesLe nettoyage de données est l'opération de détection et de correction (ou suppression) d'erreurs présentes sur des données stockées dans des bases de données ou dans des fichiers. Le nettoyage de données est un des problèmes majeurs des entrepôts de données. Les données présentes dans les bases de données peuvent avoir plusieurs types d'erreurs comme des erreurs de frappe, des informations manquantes, des imprécisions etc. La partie impropre de la donnée traitée peut être remplacée, modifiée ou supprimée.
Censure (statistiques)En fiabilité, la censure est le fait de prendre en compte des systèmes non-défaillants pour établir la loi de fiabilité. Plus généralement, le terme s'applique lorsque l'on ne connaît pas avec précision la date de défaillance, soit que la défaillance ne soit pas encore survenue, soit qu'elle n'ait pas été enregistrée avec précision. La censure est une information qui doit être intégrée dans le modèle de fiabilité, même si cette information est moins riche qu'un instant de défaillance défini.
Gouvernance des donnéesLa gouvernance des données peut-être : un concept politique lié aux flux de données au sein et entre pays. Ce champ se compose de «normes, principes et règles régissant divers types de données», au delà de la gestion purement technique des données. une stratégie d'entreprise pour gérer les données, leur flux, leurs accès, leur stockage, leur mise à jour, et leur consommation en son sein, afin d'en optimiser la valeur et l'efficience de traitement.
Données manquantesEn statistiques, les données manquantes ou les valeurs manquantes se produisent lorsqu’aucune valeur de données n’est représentée pour une variable pour une observation donnée. Les données manquantes sont courantes et peuvent avoir un effet significatif sur l'inférence, les performances de prédiction ou toute autre utilisation faite avec les données. Des données manquantes peuvent exister dans les données en raison d'une « omission de réponse » pour l'observation donnée.
Statistical graphicsStatistical graphics, also known as statistical graphical techniques, are graphics used in the field of statistics for data visualization. Whereas statistics and data analysis procedures generally yield their output in numeric or tabular form, graphical techniques allow such results to be displayed in some sort of pictorial form. They include plots such as scatter plots, histograms, probability plots, spaghetti plots, residual plots, box plots, block plots and biplots. Exploratory data analysis (EDA) relies heavily on such techniques.