Stochastic grammarA stochastic grammar (statistical grammar) is a grammar framework with a probabilistic notion of grammaticality: Stochastic context-free grammar Statistical parsing Data-oriented parsing Hidden Markov model Estimation theory The grammar is realized as a language model. Allowed sentences are stored in a database together with the frequency how common a sentence is. Statistical natural language processing uses stochastic, probabilistic and statistical methods, especially to resolve difficulties that arise because longer sentences are highly ambiguous when processed with realistic grammars, yielding thousands or millions of possible analyses.
SyntaxeLa syntaxe est, à l'origine, la branche de la linguistique qui étudie la manière dont les mots se combinent pour former des phrases ou des énoncés dans une langue. On distingue la syntaxe, qui concerne les expressions [les mots], de la sémantique, qui concerne ce qui est visé par les expressions [le sens, la signification/les choses]. Le terme a un sens similaire en informatique, bien qu'il s'applique à une terminologie différente.
Traitement de la paroleLe traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.
Analyse syntaxiqueL' consiste à mettre en évidence la structure d'un texte, généralement une phrase écrite dans une langue naturelle, mais on utilise également cette terminologie pour l'analyse d'un programme informatique. L' (parser, en anglais) est le programme informatique qui réalise cette tâche. Cette opération suppose une formalisation du texte, qui est vue le plus souvent comme un élément d'un langage formel, défini par un ensemble de règles de syntaxe formant une grammaire formelle.
Extraction de connaissancesL'extraction de connaissances est le processus de création de connaissances à partir d'informations structurées (bases de données relationnelles, XML) ou non structurées (textes, documents, images). Le résultat doit être dans un format lisible par les ordinateurs. Le groupe RDB2RDF W3C est en cours de standardisation d'un langage d'extraction de connaissances au format RDF à partir de bases de données. En français on parle d'« extraction de connaissances à partir des données » (ECD).