Similarité sémantiqueLa similarité sémantique est une notion définie entre deux concepts soit au sein d'une même hiérarchie conceptuelle, soit - dans le cas d'alignement d'ontologies - entre deux concepts appartenant respectivement à deux hiérarchies conceptuelles distinctes. La similarité sémantique indique que ces deux concepts possèdent un grand nombre d'éléments en commun (propriétés, termes, instances). D’un point de vue psychologie cognitive, les notions de proximité et de similarité sont bien distinctes.
TF-IDFLe TF-IDF (de l'anglais term frequency-inverse document frequency) est une méthode de pondération souvent utilisée en recherche d'information et en particulier dans la fouille de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus.
Travel documentA travel document is an identity document issued by a government or international entity pursuant to international agreements to enable individuals to clear border control measures. Travel documents usually assure other governments that the bearer may return to the issuing country, and are often issued in booklet form to allow other governments to place visas as well as entry and exit stamps into them. The most common travel document is a passport, which usually gives the bearer more privileges like visa-free access to certain countries.
Topic modelvignette|Visualisation du résumé d'un article scientifique traité par topic model. L'intensité de la couleur varie selon la probabilité d'appartenir au topic en question. En apprentissage automatique et en traitement automatique du langage naturel, un topic model (modèle thématique ou « modèle de sujet ») est un modèle probabiliste permettant de déterminer des sujets ou thèmes abstraits dans un document. Analyse sémantique latente (LSA) Allocation de Dirichlet latente (LDA) Analyse sémantique latente probab
Information extractionInformation extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents and other electronically represented sources. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video/documents could be seen as information extraction Due to the difficulty of the problem, current approaches to IE (as of 2010) focus on narrowly restricted domains.
Distributional semanticsDistributional semantics is a research area that develops and studies theories and methods for quantifying and categorizing semantic similarities between linguistic items based on their distributional properties in large samples of language data. The basic idea of distributional semantics can be summed up in the so-called distributional hypothesis: linguistic items with similar distributions have similar meanings. The distributional hypothesis in linguistics is derived from the semantic theory of language usage, i.
Méthode itérativeEn analyse numérique, une méthode itérative est un procédé algorithmique utilisé pour résoudre un problème, par exemple la recherche d’une solution d’un système d'équations ou d’un problème d’optimisation. En débutant par le choix d’un point initial considéré comme une première ébauche de solution, la méthode procède par itérations au cours desquelles elle détermine une succession de solutions approximatives raffinées qui se rapprochent graduellement de la solution cherchée. Les points générés sont appelés des itérés.
Wikipédia en anglaisWikipédia en anglais est l’édition de Wikipédia en anglais, langue anglo-frisonne parlée dans de nombreux pays où l'anglais est langue officielle. L'édition est lancée le . Son code . L'encyclopédie en anglais a été lancée le et a atteint trois millions d'articles en . Elle est depuis sa création la plus importante édition de Wikipédia par le nombre d'articles. Elle comptait pour environ 50 % de tous les articles en 2003, mais sa part relative par rapport aux autres éditions a depuis diminué à cause de la croissance des versions dans les autres langues.
WikipédiaWikipédia () est une encyclopédie collaborative, généraliste et multilingue créée par Jimmy Wales et Larry Sanger le . Il s'agit d'une œuvre libre, c'est-à-dire que chacun est libre de la rediffuser. Gérée en wiki dans le site web wikipedia.org grâce au logiciel MediaWiki, elle permet à tous les internautes d'écrire et de modifier des articles, ce qui lui vaut d'être qualifiée dencyclopédie participative. Elle est devenue en quelques années l'encyclopédie la plus fournie et la plus consultée au monde.
Résumé automatique de texteUn résumé est une forme de compression textuelle avec perte d'information. Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus visible des condensés de textes est le résumé, représentation abrégée et exacte du contenu d'un document. Cependant, produire un résumé pertinent et de qualité demande au résumeur (un humain ou un système automatique) l'effort de sélectionner, d'évaluer, d'organiser et d'assembler des segments d'information selon leur pertinence.