Information extractionInformation extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents and other electronically represented sources. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video/documents could be seen as information extraction Due to the difficulty of the problem, current approaches to IE (as of 2010) focus on narrowly restricted domains.
Variable aléatoirevignette|La valeur d’un dé après un lancer est une variable aléatoire comprise entre 1 et 6. En théorie des probabilités, une variable aléatoire est une variable dont la valeur est déterminée après la réalisation d’un phénomène, expérience ou événement, aléatoire. En voici des exemples : la valeur d’un dé entre 1 et 6 ; le côté de la pièce dans un pile ou face ; le nombre de voitures en attente dans la 2e file d’un télépéage autoroutier ; le jour de semaine de naissance de la prochaine personne que vous rencontrez ; le temps d’attente dans la queue du cinéma ; le poids de la part de tomme que le fromager vous coupe quand vous lui en demandez un quart ; etc.
Chimie analytiqueLa chimie analytique est la partie de la chimie qui concerne l'analyse des produits, c'est-à-dire l'identification et la caractérisation de substances chimiques connues ou non. La substance chimique dont on cherche à déterminer les propriétés est appelée « analyte ». Ses applications vont du suivi de production (vérifier qu'une chaîne fabrique un produit conforme aux spécifications) à l'enquête policière (déterminer la nature d'une trace, la provenance d'une terre, d'une peinture).
Variables indépendantes et identiquement distribuéesvignette|upright=1.5|alt=nuage de points|Ce nuage de points représente 500 valeurs aléatoires iid simulées informatiquement. L'ordonnée d'un point est la valeur simulée suivante, dans la liste des 500 valeurs, de la valeur simulée pour l'abscisse du point. En théorie des probabilités et en statistique, des variables indépendantes et identiquement distribuées sont des variables aléatoires qui suivent toutes la même loi de probabilité et sont indépendantes. On dit que ce sont des variables aléatoires iid ou plus simplement des variables iid.
Chromatographie en phase gazeuse-spectrométrie de masseLa chromatographie en phase gazeuse couplée à la spectrométrie de masse, abrégé CPG-SM, ou GC-MS de l'anglais Gas chromatography-mass spectrometry, est une technique d'analyse qui combine les performances de la chromatographie en phase gazeuse, pour la séparation des composés d'un échantillon, et de la spectrométrie de masse, pour la détection et l’identification des composés en fonction de leur rapport masse sur charge. Cette technique permet d'identifier et/ou de quantifier précisément de nombreuses substances présentes en très petites quantités, voire en traces.
AldolisationL'aldolisation (appelée aussi cétolisation dans le cadre des cétones) est une réaction de formation de liaisons carbone-carbone importante en chimie organique. Elle implique généralement l'addition nucléophile d'un énolate sur un aldéhyde (ou une cétone), pour former une β-hydroxycétone ou aldol (aldehyde + alcool), une unité structurale présente dans de nombreuses molécules naturelles et médicaments. Parfois, le produit de l'addition aldolique perd une molécule d'eau durant la réaction, pour former une cétone α,β-insaturée.
Analyse factorielleL'analyse factorielle est un terme qui désigne aujourd'hui plusieurs méthodes d'analyses de grands tableaux rectangulaires de données, visant à déterminer et à hiérarchiser des facteurs corrélés aux données placées en colonnes. Au sens anglo-saxon du terme, l'analyse factorielle (factor analysis) désigne une méthode de la famille de la statistique multivariée, utilisée pour décrire un ensemble de variables observées, au moyen de variables latentes (non observées).
Big dataLe big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
CrotonisationLa crotonisation est une réaction de déshydratation d'un bêta-aldol ou d'un bêta-cétol, formant une alpha-énone. Cet aldol/cétol résulte lui-même de l'aldolisation (condensation aldolique) d'un composé carbonylé (aldéhyde ou cétone) avec un énol, c'est-à-dire en général d'un composé carbonylé énolisable (aldéhyde ou cétone ayant un hydrogène en α). La crotonisation peut s'effectuer en milieu acide ou basique sinon par activation thermique.
DonnéeUne donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.