Traitement analytique en ligneEn informatique, et plus particulièrement dans le domaine des bases de données, le traitement analytique en ligne (anglais online analytical processing, OLAP) est un type d'application informatique orienté vers l'analyse sur-le-champ d'informations selon plusieurs axes, dans le but d'obtenir des rapports de synthèse tels que ceux utilisés en analyse financière. Les applications de type OLAP sont couramment utilisées en informatique décisionnelle, dans le but d'aider la direction à avoir une vue transversale de l'activité d'une entreprise.
Étoile (modèle de données)vignette|Exemple de Schéma en étoile Un schéma en étoile, ou modèle de données « en étoile », est une structure multidimensionnelle stockant des données atomiques ou agrégées, typiquement dans des datawarehouse ou datamart. Souvent considéré () comme un , le modèle en étoile permet une économie de jointures à l'interrogation, ce qui le rend optimisé pour les requêtes d'analyse. Le modèle en étoile est implémenté sur un SGBD relationnel classique tel que Oracle, IBM DB2, SQL Server, Teradata, MySQL ou encore PostgreSQL.
OLAP cubeAn OLAP cube is a multi-dimensional array of data. Online analytical processing (OLAP) is a computer-based technique of analyzing data to look for insights. The term cube here refers to a multi-dimensional dataset, which is also sometimes called a hypercube if the number of dimensions is greater than three. A cube can be considered a multi-dimensional generalization of a two- or three-dimensional spreadsheet. For example, a company might wish to summarize financial data by product, by time-period, and by city to compare actual and budget expenses.
DatamartUn datamart (parfois traduit magasin de données ou comptoir de données) est un sous-ensemble d’un entrepôt de données (data warehouse en anglais) destiné à fournir des données aux utilisateurs, et souvent spécialisé vers un groupe ou un type d'affaire. Techniquement, c'est une base de données relationnelle utilisée en informatique décisionnelle et exploitée en entreprise pour restituer des informations ciblées sur un métier spécifique, constituant pour ce dernier un ensemble d’indicateurs utilisés pour le pilotage de l’activité et l’aide à la décision.
Apache HiveApache Hive est une infrastructure d’entrepôt de données intégrée sur Hadoop permettant l'analyse, le requêtage via un langage proche syntaxiquement de SQL ainsi que la synthèse de données. Bien que initialement développée par Facebook, Apache Hive est maintenant utilisée et développée par d'autres sociétés comme Netflix. Amazon maintient un fork d'Apache Hive qui inclut Amazon Elastic MapReduce dans Amazon Web Services. Apache Hive prend en charge l'analyse des grands ensembles de données stockées dans Hadoop HDFS ou des systèmes de fichiers compatibles tels que Amazon S3.
Dimension (data warehouse)A dimension is a structure that categorizes facts and measures in order to enable users to answer business questions. Commonly used dimensions are people, products, place and time. (Note: People and time sometimes are not modeled as dimensions.) In a data warehouse, dimensions provide structured labeling information to otherwise unordered numeric measures. The dimension is a data set composed of individual, non-overlapping data elements. The primary functions of dimensions are threefold: to provide filtering, grouping and labelling.
Dimensional modelingDimensional modeling (DM) is part of the Business Dimensional Lifecycle methodology developed by Ralph Kimball which includes a set of methods, techniques and concepts for use in data warehouse design. The approach focuses on identifying the key business processes within a business and modelling and implementing these first before adding additional business processes, as a bottom-up approach. An alternative approach from Inmon advocates a top down design of the model of all the enterprise data using tools such as entity-relationship modeling (ER).
Snowflake schemaIn computing, a snowflake schema is a logical arrangement of tables in a multidimensional database such that the entity relationship diagram resembles a snowflake shape. The snowflake schema is represented by centralized fact tables which are connected to multiple dimensions. "Snowflaking" is a method of normalizing the dimension tables in a star schema. When it is completely normalized along all the dimension tables, the resultant structure resembles a snowflake with the fact table in the middle.
Tableau croisé dynamiqueUn tableau croisé dynamique (TCD) (en anglais pivot table) est un tableau de valeurs groupées qui regroupe les éléments individuels d'un tableau plus étendu (provenant par exemple d'une base de données, d'un tableur ou d'un système d'informatique décisionnelle) dans une ou plusieurs catégories distinctes. Ce résumé peut inclure des sommes, des moyennes ou d'autres statistiques, que le tableau croisé dynamique regroupe à l'aide d'une fonction d'agrégation choisie appliquée aux valeurs groupées.
Fonction d'agrégationIn database management, an aggregate function or aggregation function is a function where the values of multiple rows are processed together to form a single summary value. Common aggregate functions include: Average (i.e., arithmetic mean) Count Maximum Median Minimum Mode Range Sum Others include: Nanmean (mean ignoring NaN values, also known as "nil" or "null") Stddev Formally, an aggregate function takes as input a set, a multiset (bag), or a list from some input domain I and outputs an element of an output domain O.