Analyser les traces du Googlebot pour le SEO

Qu'est ce que le Googlebot ?

Le Googlebot est le crawler de Google, c'est à dire le robot de téléchargement. Un crawler peut s'appeler également un Bot ou spider. Ce robot est capable, à partir d'un point d'entrée de votre site (l'URL de la page d'accueil de votre site par exemple) d'aspirer tout ou du moins une grande partie du contenu de votre site (pages HTML, images...)

Le crawling par le Googlebot est l'étape préalable et indispensable à l'indexation par les fameux algorithmes de Google.

De manière simplifiée, on peut considérer le Googlebot comme un navigateur Internet tel qu'Internet Explorer, Firefox, Chrome qui cliquerait automatiquement sur tous les liens qu'il trouverait sur un site et en sauvegarderait le contenu.

Il est important de comprendre le rôle et le comportement de Googlebot pour avoir de bonnes bases en SEO / Référencement naturel.

Voir vos pages comme le Googlebot

ZinaWeb fournit un outil pour voir le contenu texte de vos pages comme le Googlebot.

Voir votre page comme le Googlebot :

ANALYSER

Pour lancer l'analyse ZinaWeb, il vous suffit de saisir le lien vers votre page dans la zone ci-dessus et de cliquer sur le bouton Analyser.

Pourquoi analyser les traces laissées par Googlebot ?

La quasi totalité des sites web ont installé des outils d’analyse de trafic comme Google Analytics, Xiti ou omniture pour analyser le comportement de leur visiteurs en vue d’optimiser leur site.

Il en est de même pour l’analyse du passage de Googlebot. Connaître la fréquence de passage, les pages visitées, les devices pour lesquels il analyse votre site... vous permettront de mieux comprendre son fonctionnement et optimiser votre site pour une meilleure communication avec Googlebot.

Une meilleure communication avec Googlebot permet une optimisation performante de votre SEO.

En facilitant l’accessibilité et la compréhension de votre site par Googlebot, vous optimisez le SEO de votre site.

Analyses des traces laissées par le Googlebot

Grâce aux techniques décrites à la fin de cet article, il est possible de récupérer les traces laissées par le Googlebot lorsqu'il analyse votre site, ce qui peut s'avérer très instructif d'un point de vue SEO. Voici quelques enseignements :

Googlebot simule plusieurs appareils pour se connecter à votre site

Il faut savoir que le Googlebot télécharge 4 fois les mêmes URLs, en utilisant un nom d'application Internet différent (champs HTTP "User-Agents"). Voici ces 4 valeurs utilisées par Googlebot :

Mozilla/5.0 : cela correspond à un navigateur Firefox sur un ordinateur de bureau ou portable classique
SAMSUNG-SGH-E250 : c'est un vieux téléphone portable de 2006 : Google teste donc ainsi une configuration ancienne mais toujours utilisée.
DoCoMo/2.0 N905i(c100;TB;W24H16) : c'était l'équivalent du WAP japonais. L'HTML de certains sites Internet est ou était optimisé pour ces appareils
Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) : ceux sont bien sur les iPhones

Cette information en soit n'est pas secrète (voir la page officiel de Google sur le sujet) mais elle est souvent méconnue.

Par ce biais, Google est capable de détecter si un site Internet a été optimisé par rapport à ces devices particulier. N’oublions par l’objectif principal de Google : présenter aux internautes les sites les plus pertinents par rapport à leurs requêtes. Cette pertinence passe également par l’accessibilité et la navigabilité de votre site. Donc lorsque que vous optimisez le SEO de votre site, pensez également "navigation" et "compatibilité"

On peut noter qu'actuellement il ne simule pas les appareils de type tablette (iPad...)

Googlebot télécharge aussi les CSS

La mission d'origine d'un moteur de recherche est d'extraire le contenu texte des sites Internet et de créer un index à partir de ce texte afin de pouvoir chercher facilement dedans et présenter aux internautes les sites les plus pertinents. Dans ce cadre, le moteur de recherche Google n'a à priori pas besoin des fichiers CSS, c'est à dire les feuilles de style de votre site qui contrôle l'affichage.

Et pourtant, Googlebot télécharge les fichiers CSS. Pourquoi ?

Seul Google connaît précisément la réponse à cette question, mais on peut imaginer plusieurs bonnes raisons :

les fichiers CSS peuvent contenir des URLs d'images que Googlebot veut télécharger
les fichiers CSS contiennent des directives pour gérer le "Responsive Design", c'est à dire adapter visuellement le même contenu de page en fonction de la taille de l'écran. On sait que Google aura tendance à favoriser les sites Responsive Design pour les recherches faites à partir d'un smartphone.
certaines techniques mauvaises d'optimisation SEO incitaient les utilisateurs à écrire en blanc sur fond blanc par exemple. Cela permettait de rajouter du contenu spécifique aux moteurs de recherche. Ce type de technique est interdit par Google et ils ont besoin des CSS pour le contrôler.

Googlebot télécharge le fichier robots.txt

Ce n'est pas une surprise car tout robot d'indexation bien élevé doit vérifier les règles du fichier Robots.txt. Celui-ci définit quelles sont les zones qu'il a le droit de crawler, ou pas.

Pour plus d'information sur ce point voir notre article sur le fichier Robots.txt

Googlebot optimise ses téléchargements

Etant donné le travail titanesque du Googlebot qui doit télécharger toutes les pages de tous les sites Internet du monde, il est bien sur naturel qu'il essaye de trouver des techniques pour optimiser la taille et la vitesse de ses téléchargements.

Voici quelques techniques qu'il utilise :

compression des flux HTTP quand le serveur Web du site crawlé le supporte. Ceci s'effectue grâce à ligne "Accept-encoding : gzip,deflate" du header HTTP envoyé par Googlebot
récupération de plusieurs pages sur la même connection TCP/IP quand le serveur Web du site crawlé le supporte. Ceci s'effectue grâce à ligne "Connection: Keep-Alive" du header HTTP envoyé par Googlebot
utilisation du champs HTTP "If-Modified-Since" pour éviter de télécharger un fichier qui n'aurait pas changé depuis cette dernière visite. L'envoi de ce champs n'est cependant pas systématique

Pour plus d'information sur ce point voir notre article sur le protocole HTTP

Googlebot fait attention à ne pas inonder votre site de requête

Nul doute qu'avec les moyens techniques de Google, le Googlebot serait capable d'aspirer un site entier en quelques minutes. Cependant, ils font attention à utiliser un rythme plutôt lent de téléchargement. Cela leur permet de ne pas charger les serveurs des sites analysés et ne pas troubler leur bon fonctionnement

Googlebot télécharge des URLs qui ne viennent ni du sitemap ni des liens internes de votre site

Vous serez parfois surpris des URLs que le Googlebot peut envoyer sur votre site. Parfois, ces URLs ne sont présents ni dans vos liens internes, ni dans votre sitemap mais ils sont quand même crawlés.

Les raisons à cela peuvent être variées. Par exemple si quelqu'un a installé un lien incorrect ou ancien vers votre site à partir du sien. Pour plus d'information sur ce point voir nos articles sur la stratégie de netlinking et liens externes

Googlebot télécharge aussi les images

Il utilise dans ce cas le User-Agent "Googlebot-Image"

Ce sont bien sur ces images qui permettent à Google de créer la zone de recherche "Google Image" dans son interface de recherche.

Googlebot découvre rapidement les nouvelles pages

Face à des champions du temps réel tel que Twitter, Google a fait beaucoup d'efforts ces dernières années afin d'indexer le plus rapidement possible les pages nouvelles.

Et en analysant les logs, il est visible que des pages nouvelles sont souvent téléchargées dans les heures qui suivent leur mise en ligne, et ce même si elles n'ont pas encore été intégré à un fichier sitemap. Pour se faire, il suffit que les pages nouvelles apparaissent dans des liens internes de pages existantes, que Google va repérer en les vérifiant.

Cependant, il ne faut pas confondre la date de passage du Googlebot sur la nouvelle page avec la date de la mise à disposition de la nouvelle page dans les résultats de recherche. Ce deuxième temps est significativement plus long que le premier (sauf pour certains sites avec beaucoup d'actualités). A titre d'exemple, la page que vous lisez a été visité par le Googlebot après 4 heures de mises en ligne et a commencé à apparaitre dans les résultats de recherche au bout de 24 heures.

Méthodes pour récupérer les traces du Googlebot

Quelles sont les traces laissées le Googlebot ?

Ce qui est intéressant avec le Googlebot, c'est que les serveurs de Google sont en interaction directe avec le ou les serveurs Web qui hébergent votre site. Cela a 2 conséquences :

comme pour tout autre interaction avec un autre navigateur, votre serveur Web a des historiques des traces laissées par le Googlebot (via les fichiers de log HTTP)
que ces traces sont claires et indiscutables, contrairement à toutes les tentatives d'analyse de bonne qualité ou non des algorithmes d'indexation de Google

C'est pour ces raisons qu'il est intéressant d'analyser près ces fichiers de log de temps en temps. Les résultats d’analyses du passage de Googlebot vous aideront à orienter votre stratégie SEO.

Méthode 1 : analyser les logs HTTP du serveur Web de votre site

Aujourd'hui le trafic d'un site Internet est analysé par les outils modernes et haut niveau, les plus connus étant Google Analytics, Xiti... Ces outils sont basés sur du code Javascript placé sur le navigateur du visiteur par le site visité. Ce code Javascript envoie à l'analyseur toutes les informations dont il a besoin. Cependant les robots / crawlers comme Googlebot ne se comportent pas comme un navigateur classique, et notamment ne déclenchent pas le Javascript de ces outils. C'est pourquoi toutes les visites de Googlebot sont invisibles dans Google Analytics par exemple.

Mais par contre les logs HTTP crées par les serveurs Web hébergeant les sites Internet historisent les interactions avec le Googlebot au même titre que tous les autres client Web

Si vous ne savez pas comment récupérer ces fichiers de log HTTP, vous pouvez contacter votre hébergeur. Attention, ces fichiers peuvent être assez volumineux pour des sites avec beaucoup de trafic

Ces fichiers contiennent tout simplement une ligne pour chaque URLs téléchargées de votre site Web (que ça soit une page HTML, un CSS, un Javascript, un fichier image...)

Comme tout client Web interagissant avec un serveur Web, le GoogleGot doit déclarer son nom dans le champs HTTP appelé "User-Agent". Google renseigne les valeurs possibles de ses User-Agent à cet endroit.

On voit donc que le user agent utilisé par le Googlebot est :

Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)

Un certain nombre d'outil (grep en particulier en environnement Linux) permettent alors d'extraire toutes les lignes de vos fichiers de log contenant par exemple la clé "https://www.google.com/bot.html"

# grep "https://www.google.com/bot.html" www.default-access.log
66.249.75.104 - - [11/Dec/2013:11:15:31 +0100] "GET /balises-h1-h2 HTTP/1.1" 200 8848 0 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

Il faut maintenant vérifier que l'adresse IP du client Web appartient bien à Google. Ceci s'effectue grâce à la commande nslookup par exemple :

# nslookup 66.249.75.104
Authoritative answers can be found from:
75.249.66.in-addr.arpa	nameserver = ns1.google.com.

Cette fois, on est sur que c'est le Googlebot !

Méthode 2 : détecter les requêtes du Googlebot par programmation

Cette technique nécessite un petit développement : il s'agit simplement de détecter par programmation les requêtes provenant du Googlebot (en utilisant par exemple le User-Agent et un reverse lookup) et de sauvegarder les champs les plus intéressants de la requête HTTP faite par Googlebot. Cette méthode peut fournir des informations complémentaires à la méthode 1 décrite précédemment.