Vidéo: Comment Corriger Ses Fautes D'orthographe sur Word, Google, Email ? (correcteur orthographique) (Novembre 2024)
Pour consulter mes actualités, je balaye souvent Google Actualités, qui regroupe des articles du monde entier en fonction des tendances du "robot". C'est tout ce qui concerne les tendances. Il manque généralement les dernières nouvelles et ignore totalement les commentaires importants, comme ma chronique. Au lieu de cela, il semble préférer aller vers les liens morts - j'entends par là le Wall Street Journal , qui nécessite un abonnement pour pouvoir le lire.
Aujourd'hui est un exemple typique. La CES a publié un article de dernière heure sur le réseau Dish qui tentait d'acheter Clearwire. Mais au lieu de créer des liens vers des histoires similaires sur des sites Web gratuits et lisibles, Google décide que l'histoire principale devrait provenir du Wall Street Journal .
Dans le passé, Google avait conclu un accord qui permettait aux utilisateurs de lire au moins le paragraphe principal, voire l'article en entier, avant d'être bloqués par le paywall. À moins que vous ne connaissiez une astuce de contournement (décrite ci-dessous), cela ne s'applique plus. Maintenant, vous rencontrez le paywall et vous avez terminé. Je suppose que les abonnés réels surmontent ce problème, mais je me demande comment les robots de Google le récupèrent pour trouver l’histoire en premier lieu. Google paye-t-il? J'en doute. Donc, il doit y avoir une sorte de porte dérobée pour les robots de Google, non?
C'est faux et rend un mauvais service aux utilisateurs de Google. Google passe par tous ces problèmes pour vaincre les personnes qui tentent de jouer avec le système, mais laisse-t-il le Wall Street Journal s'en sortir? Il s’agit essentiellement d’un abonnement payant pour les abonnements au Wall Street Journal . Est-ce ce que Google veut? Google est-il victime d'une coupure?
Cela ne peut pas être si difficile pour Google de simplement régler ce problème. Cela prendrait une minute, cinq en tête. Est-ce trop de travail?
Si une entreprise a un paywall intégré à son service, Google ne devrait pas du tout effectuer de recherche sur le site. Les robots devraient savoir qu'il y a un paywall et simplement éviter la recherche. Et, oui, j'aimerais une explication sur la manière dont les robots peuvent effectuer des recherches sur un site bloqué par un paywall. C'est un mystère.
Un paywall doit être exactement identique à un "robots.txt" qui indique au robot d'exploration de s'en aller. Mais il y a quelque chose de louche dans la relation WSJ -Google. Le moyen le plus simple de tuer tous les robots est d'utiliser une balise META dans le fichier robots.txt, ainsi: .
Au lieu de cela, le WSJ bloque spécifiquement certains sous-répertoires, mais apparemment pas tous. Et plus étrange encore, si vous effectuez une recherche dans Google Actualités pour trouver exactement le même article, plutôt que de simplement cliquer sur le lien dans le récapitulatif, vous obtenez l'article par un autre mécanisme.
Je défie les lecteurs plus techniques de comprendre ce qui se passe entre eux en examinant le fichier robots.txt utilisé par le WSJ . Un document public est disponible ici.
Quel que soit le cas, les sites ont des paywalls pour des raisons financières. S'ils veulent jouer à des jeux avec leur contenu, c'est une chose, mais il devrait être banni des résultats de recherche de la même manière que Google tente de contrecarrer les utilisateurs qui tentent de jouer au système. Google interdira à un blogueur malchanceux de laisser tomber son chapeau pour un comportement superficiel. Que diriez-vous de traiter de plus gros sites de la même manière?
Vous pouvez suivre John C. Dvorak sur Twitter @therealdvorak.
Plus John C. Dvorak:
Sortez du sujet avec John C. Dvorak.
VOIR TOUTES LES PHOTOS DE LA GALERIE