Arabic scriptThe Arabic script is the writing system used for Arabic and several other languages of Asia and Africa. It is the second-most widely used alphabetic writing system in the world (after the Latin alphabet), the second-most widely used writing system in the world by number of countries using it or a script directly derived from it, and the third-most by number of users (after the Latin and Chinese scripts). The script was first used to write texts in Arabic, most notably the Quran, the holy book of Islam.
Information extractionInformation extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents and other electronically represented sources. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video/documents could be seen as information extraction Due to the difficulty of the problem, current approaches to IE (as of 2010) focus on narrowly restricted domains.
Link grammarLink grammar (LG) is a theory of syntax by Davy Temperley and Daniel Sleator which builds relations between pairs of words, rather than constructing constituents in a phrase structure hierarchy. Link grammar is similar to dependency grammar, but dependency grammar includes a head-dependent relationship, whereas Link Grammar makes the head-dependent relationship optional (links need not indicate direction). Colored Multiplanar Link Grammar (CMLG) is an extension of LG allowing crossing relations between pairs of words.
Linguistique de corpusLa linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels. En particulier elle se propose d'extraire d'un corpus les connaissances linguistiques essentielles à l’enseignement des langues et à l'élaboration des dictionnaires. La linguistique de corpus situe la signification dans le discours et dans l'interaction entre les gens plutôt que dans l'esprit des locuteurs. En effet le sens des mots est déterminé par le contexte dans lequel ils sont employés.
Alphabet arabeLalphabet arabe est un abjad, c'est-à-dire un système d'écriture ne notant que les consonnes (à peu de chose près). Il comporte initialement vingt-huit lettres et s'écrit horizontalement de droite à gauche. Les diverses langues qu'il sert à noter ont donné lieu à de nombreuses adaptations de l'alphabet arabe à leur système phonologique. L'écriture arabe courante ne note pas les voyelles, qui peuvent cependant apparaître sous forme de diacritiques dans certains textes à caractère didactique (Coran, apprentissage de la lecture, dictionnaires).
Reconnaissance d'entités nomméesLa reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des corpus documentaires. Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. À titre d'exemple, on pourrait donner le texte qui suit, étiqueté par un système de reconnaissance d'entités nommées utilisé lors de la campagne d'évaluation MUC: Henri a acheté 300 actions de la société AMD en 2006 Henri a acheté 300 actions de la société AMD en 2006.
ArabeL’arabe (en arabe : ar, al-arabīyah ) est une langue afro-asiatique de la famille des langues sémitiques. Avec un nombre de locuteurs estimé entre et de personnes, au sein du monde arabe et de la diaspora arabe, l'arabe est de loin la langue sémitique la plus parlée, bien avant l'amharique (seconde langue sémitique la plus parlée). La langue arabe est originaire de la péninsule Arabique, où elle devint au la langue du Coran et la langue liturgique de l'islam.
Graphe aléatoirevignette|Graphe orienté aléatoire avec 20 nœuds et une probabilité de présence d'arête égale à 0,1. En mathématiques, un graphe aléatoire est un graphe généré par un processus aléatoire. Le premier modèle de graphes aléatoires a été popularisé par Paul Erdős et Alfréd Rényi dans une série d'articles publiés entre 1959 et 1968. Il y a deux modèles d'Erdős et Rényi, formellement différents, mais étroitement liés : le graphe aléatoire binomial et le graphe aléatoire uniforme.
Transducteur finiEn informatique théorique, en linguistique, et en particulier en théorie des automates, un transducteur fini (appelé aussi transducteur à états finis par une traduction littérale de l'anglais finite state transducer) est un automate fini avec sorties. C'est une extension des automates finis. Ils opèrent en effet sur les mots sur un alphabet d'entrée et, au lieu de simplement accepter ou refuser le mot, ils le transforment, de manière parfois non déterministe, en un ou plusieurs mots sur un alphabet de sortie.
LatinLe 'latin' (en latin : Lingua Latīna ou Latīna Lingua) est une langue italique de la famille des langues indo-européennes, parlée à l'origine par les Latins dans le Latium de la Rome antique. Le latin, ainsi que les langues romanes (dites parfois néo-latines), sont la seule branche des langues italiques à avoir survécu. Les autres branches sont attestées dans des documents datant de l'Italie préromaine, mais ont été assimilées durant la période républicaine ou au début de l'époque impériale.