Sequential pattern miningSequential pattern mining is a topic of data mining concerned with finding statistically relevant patterns between data examples where the values are delivered in a sequence. It is usually presumed that the values are discrete, and thus time series mining is closely related, but usually considered a different activity. Sequential pattern mining is a special case of structured data mining. There are several key traditional computational problems addressed within this field.
Jeu de donnéesvignette|Représentation du jeu de données Iris sur ses quatre dimensions|420x420px Un jeu de données (en anglais dataset ou data set) est un ensemble de valeurs « organisées » ou « contextualisées » (alias « données »), où chaque valeur est associée à une variable (ou attribut) et à une observation. Une variable décrit l'ensemble des valeurs décrivant le même attribut et une observation contient l'ensemble des valeurs décrivant les attributs d'une unité (ou individu statistique).
Qualité des donnéesLa qualité des données, en informatique se réfère à la conformité des données aux usages prévus, dans les modes opératoires, les processus, les prises de décision, et la planification (J.M. Juran). De même, les données sont jugées de grande qualité si elles représentent correctement la réalité à laquelle elles se réfèrent. Ces deux points de vue peuvent souvent entrer en contradiction, y compris lorsqu'un même ensemble de données est utilisé avec un objectif commun.
Research data archivingResearch data archiving is the long-term storage of scholarly research data, including the natural sciences, social sciences, and life sciences. The various academic journals have differing policies regarding how much of their data and methods researchers are required to store in a public archive, and what is actually archived varies widely between different disciplines. Similarly, the major grant-giving institutions have varying attitudes towards public archival of data.
Sequence analysisIn bioinformatics, sequence analysis is the process of subjecting a DNA, RNA or peptide sequence to any of a wide range of analytical methods to understand its features, function, structure, or evolution. Methodologies used include sequence alignment, searches against biological databases, and others. Since the development of methods of high-throughput production of gene and protein sequences, the rate of addition of new sequences to the databases increased very rapidly.
AssayAn assay is an investigative (analytic) procedure in laboratory medicine, mining, pharmacology, environmental biology and molecular biology for qualitatively assessing or quantitatively measuring the presence, amount, or functional activity of a target entity. The measured entity is often called the analyte, the measurand, or the target of the assay. The analyte can be a drug, biochemical substance, chemical element or compound, or cell in an organism or organic sample.
Structure miningStructure mining or structured data mining is the process of finding and extracting useful information from semi-structured data sets. Graph mining, sequential pattern mining and molecule mining are special cases of structured data mining. The growth of the use of semi-structured data has created new opportunities for data mining, which has traditionally been concerned with tabular data sets, reflecting the strong association between data mining and relational databases.
Rémanence des donnéesvignette|Débris d'un disque dur détruit. En informatique, la rémanence des données désigne la représentation résiduelle de données qui persistent malgré des tentatives de les effacer. Cette rémanence peut venir de traces laissées par la suppression d'un fichier qui supprime le fichier de l'index d'un disque, mais laisse les données du fichier sur le disque ; le reformatage d'un support de stockage qui ne supprime pas les informations préalablement écrites sur le support ; les propriétés physiques du support qui permettent à des données préalablement enregistrées d'être récupérées malgré l'écriture d'autres informations sur les cellules préalablement occupées par ces données.
Fouille de textesLa fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains.
Régulation de l'expression des gènesLa régulation de l'expression des gènes désigne l'ensemble de mécanismes mis en œuvre pour passer de l'information génétique incluse dans une séquence d'ADN à un produit de gène fonctionnel (ARN ou protéine). Elle a pour effet de moduler, d'augmenter ou de diminuer la quantité des produits de l'expression des gènes (ARN, protéines). Toutes les étapes allant de la séquence d'ADN au produit final peuvent être régulées, que ce soit la transcription, la maturation des ARNm, la traduction des ARNm ou la stabilité des ARNm et protéines.