Traitement automatique du langage naturelLe traitement automatique du langage naturel (TALN), en anglais natural language processing ou NLP, est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle, qui vise à créer des outils de traitement du langage naturel pour diverses applications. Il ne doit pas être confondu avec la linguistique informatique, qui vise à comprendre les langues au moyen d'outils informatiques.
Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
Jeux d'entrainement, de validation et de testEn apprentissage automatique, une tâche courante est l'étude et la construction d'algorithmes qui peuvent apprendre et faire des prédictions sur les données. De tels algorithmes fonctionnent en faisant des prédictions ou des décisions basées sur les données, en construisant un modèle mathématique à partir des données d'entrée. Ces données d'entrée utilisées pour construire le modèle sont généralement divisées en plusieurs jeux de données .
Compréhension du langage naturelvignette|L'apprentissage de la lecture par Sigurður málari, siècle. La compréhension du langage naturel (NLU en anglais) ou linterprétation en langage naturel (NLI) est une sous-rubrique du traitement de la langue naturelle en intelligence artificielle qui traite de la compréhension en lecture automatique. La compréhension du langage naturel est considérée comme un problème difficile en IA. Il existe un intérêt commercial considérable dans ce domaine en raison de son application à la collecte de nouvelles, à la catégorisation des textes, à l'activation vocale, à l'archivage et à l'analyse de contenu à grande échelle.
Modèle de fondationUn modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé ). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais). Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT et GPT-3.
Science des donnéesLa science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
Domaine de premier niveauUn domaine de premier niveau ou un domaine de tête (top-level domain, ou TLD), aussi appelé une extension, est, dans le système de noms de domaine internet, un sous-domaine de la racine. Dans un nom de domaine, le domaine de premier niveau est généralement le dernier élément du nom de domaine (exemple : dans , le domaine de premier niveau est ). vignette|Exemples de domaines de premier niveau. Le dernier point est optionnel. À l'origine, il indiquait la fin du nom de domaine. Par simplicité, l'usage courant est de ne plus l'indiquer.
Sélection de caractéristiqueLa sélection de caractéristique (ou sélection d'attribut ou de variable) est un processus utilisé en apprentissage automatique et en traitement de données. Il consiste, étant donné des données dans un espace de grande dimension, à trouver un sous-sensemble de variables pertinentes. C'est-à-dire que l'on cherche à minimiser la perte d'information venant de la suppression de toutes les autres variables. C'est une méthode de réduction de la dimensionnalité. Extraction de caractéristique Catégorie:Apprentissage
Nom de domaineUn nom de domaine (NDD en notation abrégée française ou DN pour Domain Name en anglais) est, dans le système de noms de domaine DNS, un identifiant de domaine internet. Un domaine est un ensemble d'ordinateurs reliés à Internet et possédant une caractéristique commune. Par exemple, un domaine tel que .fr est l'ensemble des ordinateurs hébergeant des activités pour des personnes ou des organisations qui se sont enregistrées auprès de l'Association française pour le nommage Internet en coopération (AFNIC) qui est le registre responsable du domaine de premier niveau .
Variable latenteIn statistics, latent variables (from Latin: present participle of lateo, “lie hidden”) are variables that can only be inferred indirectly through a mathematical model from other observable variables that can be directly observed or measured. Such latent variable models are used in many disciplines, including political science, demography, engineering, medicine, ecology, physics, machine learning/artificial intelligence, bioinformatics, chemometrics, natural language processing, management, psychology and the social sciences.