Explore les techniques de résolution d'entités, la déduplication des données, les métriques de similitude, le coût de calcul, les techniques de blocage et l'échelle des jointures de similarité.
Explore les politiques interactives d'apprentissage à partir de sources de données non traditionnelles pour les systèmes autonomes, y compris les actions latentes en connaissance de langue et le cadre PLATO.
Explore le modèle Vector Space, le sac de mots, tf-idf, cosine similarité, Okapi BM25, et la précision et le rappel dans la récupération d'information.
Explore l'extraction de texte de données à longue queue dans les neurosciences et la connectivité cérébrale, y compris la reconnaissance d'entités nommées, l'extraction de la concentration de protéines et la comparaison des matrices de connectivité.
Couvre les fondamentaux et les algorithmes du classement basé sur les liens, y compris l'indexation de texte d'ancrage, PageRank, HITS, et les implémentations pratiques.
Couvre la recherche de documents, la classification, l'analyse des sentiments et la détection de sujets à l'aide de matrices TF-IDF et de vecteurs de mots contextualisés.
Explore les techniques de résolution d'entités pour identifier et agréger différents profils d'entités à travers des ensembles de données, couvrant les défis et les solutions.