Qu’est-ce que le “web scraping” ?

Les « web scraping » c’est une méthode de récolte des données sur Internet. Celle-ci est très utilisée de manière légale, mais aussi de plus en plus par des escrocs.

Pour bien comprendre ce qu’est le « web scraping », il faut d’abord comprendre que celui-ci rentre dans une autre catégorie au nom tout aussi anglo-saxon : le « data mining ». Le data mining, c’est tout simplement un ensemble de pratiques visant à récolter une grande quantité de données afin d’en tirer des informations. Par exemple, certains amateurs de jeux vidéo pratiquent le data mining pour découvrir des indices sur le contenu à venir (souvent, des fichiers sont déjà présents en préparations pour des extensions qui ne sont pas encore sorties).

Vous l’aurez compris, le « web scraping », c’est tout simplement une pratique de data mining, mais sur Internet. Le but du web scraping peut être extrêmement multiple, mais est très souvent commercial : c’est une des meilleures manières de récolter de potentielles données qui pourront aider dans le cadre de la publicité ciblée.

Mais concrètement, comment se pratique le web scraping ? Contrairement à un logiciel qui vous donne directement accès à son code source, Internet, au vu de sa taille gigantesque, ne vous révèlera pas tous ses secrets si aisément que cela. Aussi faut-il avoir recours à un petit quelque chose : des bots.

Ces petits robots vont en effet être ceux qui vont aller à la rencontre du code HTML des pages web (à condition, bien entendu, que la page les laisse faire) et ainsi en extraire bon nombre de données utiles. Pour ce faire, ils vont toutefois éviter de révéler leur nature de bot au système. Vous comprenez maintenant mieux l’importance des CAPTCHA et leurs systèmes pour confirmer que « je ne suis pas un robot ».

Malheureusement pour les concepteurs de ces CAPTCHA, ils ne sont pas franchement aussi efficaces qu’avant pour détecter les bots (même si de nouvelles méthodes plus perfectionnées se développent). Ces bots vont ainsi pouvoir accéder à des parties du code source auxquelles ils ne sont vraiment pas censés accéder, y compris parfois certaines qui contiennent des données sensibles.

Une fois le web scraping réalisé, les données récoltées vont généralement aller enrichir des bases de données qui pourront ensuite être analysées afin d’en tirer les enseignements que l’on désire y trouver.

Comme nous l’avons dit, le web scraping peut être utilisé dans un cadre légal ou semi-légal, par exemple, dans la recherche scientifique ou dans le domaine publicitaire, où son utilisation n’est toutefois pas sans poser des questions éthiques, si pas juridiques (il peut s’apparenter à une forme d’espionnage industriel). Ils sont aussi assez régulièrement utilisés à des fins politiques, comme dans le cadre de fermes à trolls.

Mais malheureusement, la méthode est aussi de plus en plus appréciée des pirates qui se servent très souvent des données récoltées dans des campagnes de phishing. C’est par exemple grâce aux web scraping en bonne partie que les pirates parviennent à recréer à l’identique des sites web afin de vous faire croire que vous êtes sur le véritable site de ce pour quoi les escrocs se font passer (le phishing inclut bien souvent des méthodes d’usurpation d’identité, ou « spoofing »).

Pour le particulier qui se promène sur le Web, il y a donc peu de choses à faire, si ce n’est rester prudent : vous l’avez bien compris, il ne faut pas donner trop d’informations sur Internet, dans la mesure du possible, et toujours vérifier que vous êtes bien sur le site sur lequel vous pensez être, et pas sur une copie qui vise à vous soutirer de l’argent.

Source: Qu’est-ce que le “web scraping” ? – Geeko

Comments are Closed