Vidéo: Protéger et gérer l'accès au contenu de son site [RDV #WORDPRESS 030] (Novembre 2024)
Supposons que vous soyez un fournisseur en ligne de produits électroniques usagés. Votre entreprise dépend de ce type qui recherche un iPad usagé sur un iPad usagé. Mais vous ne seriez pas si heureux si un concurrent capturait votre liste de prix complète afin de battre vos prix juste assez. Comment autoriser un accès complet aux utilisateurs tout en empêchant la récupération en masse de votre contenu? Eh bien, vous pouvez utiliser ScrapeDefender, une solution anti-raclage basée sur le cloud qui est disponible aujourd'hui. J'ai discuté avec Robert Kane, PDG de ScrapeDefender, du fonctionnement du produit.
Qui en a besoin?
"Nous travaillons déjà avec les compagnies aériennes, l'électronique grand public, les marchés financiers et bien plus encore en tant que clients bêta", a déclaré Kane. "Tout site Web qui publie beaucoup de contenu important, des listes de prix, de l'immobilier… tout ce contenu peut être collecté en masse." Kane a fait remarquer que si certains scrapers utilisent des scripts simples, d'autres tentent de se faire passer pour des humains en capturant le site plus lentement ou en utilisant plusieurs robots. "Le défi pour les propriétaires est de savoir comment laisser le monde entrer et empêcher les robots non autorisés", a conclu Kane.
C’est là que ScrapeDefender entre en jeu. "Notre moniteur est un outil passif, comme Google Analytics", a déclaré Kane. "Vous insérez une ligne de code sur votre site qui nous permet de le surveiller 24 heures sur 24, 7 jours sur 7. Une seule ligne de code dans l'en-tête de la page Web. Comme c'est passif, cela n'a aucun effet sur votre réseau de production."
Tableau de bord en ligne
Un client ScrapeDefender peut afficher une vue d'ensemble de toutes les activités de raclage bloquées, mais peut également procéder à une recherche approfondie pour obtenir tous les détails. Kane a fait la démonstration du système en me montrant les types d'activités qui soulèvent un drapeau rouge. Beaucoup sont assez simples. L'adresse IP d'un scraper a tendance à faire beaucoup plus de visites sur les sites et de pages consultées que celle d'un humain, et a tendance à rester sur une page pendant très peu de temps. Même lorsqu'ils essaient de ralentir et d'éviter la détection, un motif est visible. Les visites des humains viennent généralement avec un champ de référence; les visites en grattant des bots ne font jamais. Tous ces critères contribuent à un score de risque global; un score assez élevé identifie presque toujours l'activité de grattage.
"Les scrapers sophistiqués utilisent plusieurs adresses IP", a noté Kane. "Mais nous utilisons une empreinte digitale numérique pour faire correspondre les sessions associées, même lorsque l'adresse IP est différente. Il peut s'agir d'un script exécuté sur des machines différentes ou des machines virtuelles différentes, mais l'empreinte digitale est la même.
Grattoir, pas de grattage!
J'ai demandé ce qui se passe une fois qu'un grattoir est identifié. "Nous le faisons de deux manières", a déclaré Kane. "Nous proposons un module de sécurité qui peut les bloquer, mais nous constatons que les organisations avec lesquelles nous travaillons ont leur propre pare-feu. Nous avons donc une API qui peut envoyer les adresses IP suspectes à leur pare-feu."
Alors, quel est le coût? Les prix commencent à 79 $ par mois et s’étendent à tous les sites Web. "Quelqu'un nous a contactés la semaine dernière", a déclaré Kane, "à propos d'un site Web comptant 25 millions de pages vues… par jour ! Nous le soutenons".
La société analysera environ 150 vulnérabilités liées à la gravure pour un nouveau client, mais tout le monde peut exécuter une analyse gratuite qui vérifie un sous-ensemble de celles-ci. Il suffit de visiter le site Web ScrapeDefender et entrez le nom de domaine. Dans quelques minutes, vous aurez votre réponse.
L'avenir
«À mon avis, a déclaré Kane, l’anti-décapage s’apparente maintenant à la première activité d’antivirus. C’est une opportunité énorme. Tout le monde devra l’avoir. Il a souligné que Snapchat aurait pu utiliser cette technologie pour empêcher la collecte de 4, 6 millions de données d'utilisateurs et éviter ainsi la récente augmentation du spam de Snapchat.
"CAPTCHA n'est pas une solution", a déclaré Kane. "Même si cela a fonctionné, n’ont-ils pas entendu parler des fermes CAPTCHA? La vraie solution consiste à examiner les comportements et à bloquer les comportements de raclage."
Il reste à voir si suffisamment de propriétaires de sites Web choisiront de payer pour une solution anti-raclage. Je regarderai pour voir comment celle-ci se déroulera.