Data PreprocessingData preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.
Série temporellethumb|Exemple de visualisation de données montrant une tendances à moyen et long terme au réchauffement, à partir des séries temporelles de températures par pays (ici regroupés par continents, du nord au sud) pour les années 1901 à 2018. Une série temporelle, ou série chronologique, est une suite de valeurs numériques représentant l'évolution d'une quantité spécifique au cours du temps. De telles suites de variables aléatoires peuvent être exprimées mathématiquement afin d'en analyser le comportement, généralement pour comprendre son évolution passée et pour en prévoir le comportement futur.
OrthogonalitéEn géométrie classique, l'orthogonalité est une propriété liée à l'existence d'un angle droit (orthos = droit, gônia = angle). Dans l'espace, deux droites sont orthogonales si elles sont chacune parallèles à des droites se coupant en angle droit ; deux perpendiculaires étant deux droites orthogonales et sécantes. Une droite est orthogonale à un plan si elle est orthogonale aux droites du plan. On parle de vecteurs orthogonaux pour des vecteurs directeurs de droites orthogonales et de segments orthogonaux pour des segments portés par des droites orthogonales.
Genetic associationGenetic association is when one or more genotypes within a population co-occur with a phenotypic trait more often than would be expected by chance occurrence. Studies of genetic association aim to test whether single-locus alleles or genotype frequencies or more generally, multilocus haplotype frequencies differ between two groups of individuals usually diseased subjects and healthy controls). Genetic association studies are based on the principle that genotypes can be compared "directly", i.e.
Traitement de donnéesEn informatique, le terme traitement de données ou traitement électronique des données renvoie à une série de processus qui permettent d'extraire de l'information ou de produire du savoir à partir de données brutes. Ces processus, une fois programmés, sont le plus souvent automatisés à l'aide d'ordinateurs. Si les résultats finaux produits par ces processus sont destinés à des humains, leur présentation est souvent essentielle pour en apprécier la valeur. Cette appréciation est cependant variable selon les personnes.
Apprentissage automatiqueL'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.
Rayon spectralSoit un endomorphisme sur un espace de Banach complexe , on appelle rayon spectral de , et on note , le rayon de la plus petite boule fermée de centre 0 contenant toutes les valeurs spectrales de . Il est toujours inférieur ou égal à la norme d'opérateur de . En dimension finie, pour un endomorphisme de valeurs propres complexes , le rayon spectral est égal à . Par conséquent, pour toute norme matricielle N, c'est-à-dire toute norme d'algèbre sur (respectivement ) et pour toute matrice A dans (respectivement ), .
No instruction set computingNo instruction set computing (NISC) is a computing architecture and compiler technology for designing highly efficient custom processors and hardware accelerators by allowing a compiler to have low-level control of hardware resources. NISC is a statically scheduled horizontal nanocoded architecture (SSHNA). The term "statically scheduled" means that the operation scheduling and Hazard handling are done by a compiler. The term "horizontal nanocoded" means that NISC does not have any predefined instruction set or microcode.
Théorie des perturbationsLa théorie des perturbations est un domaine des mathématiques, qui consiste à étudier les contextes où il est possible de trouver une solution approchée à une équation en partant de la solution d'un problème plus simple. Plus précisément, on cherche une solution approchée à une équation (E) (dépendante d'un paramètre λ), sachant que la solution de l'équation (E) (correspondant à la valeur λ=0) est connue exactement. L'équation mathématique (E) peut être par exemple une équation algébrique ou une équation différentielle.
Big dataLe big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.