Séance de cours

Flux de données : algorithmes et applications

Dans cours

Internet analytics is the collection, modeling, and analysis of user data in large-scale online services, such as social networking, e-commerce, search, and advertisement. This class explores a number

Description

Cette séance de cours introduit le concept de flux de données, en se concentrant sur le calcul de statistiques avec une mémoire sous-linéaire et en estimant efficacement les quantités. Il couvre des techniques telles que le comptage d'éléments distincts, la recherche de frappeurs lourds et l'approximation du nombre-distinct à l'aide d'algorithmes tels que Flajolet-Martin. La séance de cours explore également la similitude des documents, discutant des bardeaux, des croquis et des méthodes de comparaison des croquis. En outre, il explore les distances et les requêtes les plus proches des voisins dans des données de grande dimension, présentant des techniques de réduction de dimension randomisées telles que le lemme Johnson-Lindenstrauss et la projection aléatoire. L'instructeur fournit des exemples pratiques et des applications, soulignant l'importance de ces algorithmes dans la gestion des défis «Big Data».

Enseignant

Matthias Grossglauser

Source officielle

Séances de cours associées (29)

Recherche du voisin le plus proche: Johnson-Lindenstrauss Lemma

Couvre l'algorithme de recherche le plus proche du voisin et le lemme de Johnson-Lindenstrauss pour la réduction de la dimensionnalité, en explorant les techniques de prétraitement et le hachage sensible à la localité.

Classeur voisin le plus proche: Malédiction de la dimensionnalité

Explore la méthode de classification la plus proche du voisin, en discutant de ses limites dans les espaces de grande dimension et de l'importance de la corrélation spatiale pour des prédictions efficaces.

KNN: classificateur de voisin le plus proche

Couvre le classificateur k-NN, la reconnaissance numérique manuscrite, la réduction de données, les applications, la construction de graphes, les limitations et la malédiction de la dimensionnalité.

Analyse des données textuelles: réduction de la classification et de la dimensionnalité

Explore la classification des données textuelles, en se concentrant sur des méthodes telles que les bayes naïques et les techniques de réduction de la dimensionnalité telles que l'analyse des composantes principales.

Clustering: Apprentissage sans supervision

Explore la réduction de la dimensionnalité, les algorithmes de clustering et l'état de l'apprentissage automatique.

Afficher plus