Concept

Web scraping

Le web scraping, parfois appelé harvesting ou en français moissonnage, est une technique d'extraction des données de sites Web par l'utilisation d'un script ou d'un programme dans le but de les transformer et les réutiliser dans un autre contexte comme l'enrichissement de bases de données, le référencement ou l'exploration de données. Aux États-Unis, la société hiQ Labs utilise le web scraping sur les données de LinkedIn à des fins de recrutement. À la suite d'un procès, la Cour d'appel des États-Unis pour le neuvième circuit donne raison à hiQ en : la cour considère notamment que les utilisateurs conservent la propriété de leurs profils, et que les données étant librement diffusées sur Internet, elles peuvent être collectées. L'affaire est ensuite portée devant la Cour suprême qui rendra son verdict en novembre 2022 en faveur du réseau social LinkedIn sur décision du juge Edward Chen, invoquant le fait que hiQ pratique la rétro-ingénierie afin de contourner sciemment et de manière répétée les protections contre les robots en simulant des utilisateurs humains. Dans un jugement de 2013, la Cour de justice de l'Union européenne condamne le métamoteur de recherche Innoweb, qui réutilise les données de l'entreprise de vente d'automobiles Wegener sans modification de celles-ci. Le , la CNIL publie de nouvelles directives sur le web scraping. Les lignes directrices de la CNIL précisent que les données accessibles au public sont toujours des données personnelles et qu'elles ne peuvent pas être réutilisées à l'insu de la personne à laquelle ces données appartiennent. En décembre 2021, une start-up de la Station F est condamnée pour piratage informatique. À l'aide d'une technique de web scraping, elle récolte des données de l'annuaire d'une école de commerce parisienne, afin de solliciter les anciens élèves de l'établissement en vue d'alimenter un financement participatif. La condamnation porte sur la méthode d'accès à la donnée, c'est-à-dire une usurpation d'identité permettant un « accès frauduleux à un système de traitement automatisé de données », et non le web scraping lui-même.

Source officielle

https://fr.wikipedia.org/wiki/Web_scraping

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Web scraping

Graph Chatbot

Chattez avec Graph Search

From scattered sources to comprehensive technology landscape : A recommendation-based retrieval approach

Efficient and Effective Multi-Modal Queries Through Heterogeneous Network Embedding

Wasserstein Adversarial Regularization for learning with label noise

From scattered sources to comprehensive technology landscape : A recommendation-based retrieval approach

Efficient and Effective Multi-Modal Queries Through Heterogeneous Network Embedding

Wasserstein Adversarial Regularization for learning with label noise