La balise meta robots

Présentation de la balise meta robots

La balises meta robots est une balise HTML qui permet de contrôler la façon dont les moteurs de recherches explorent et indexent une page.

Concrètement, cela permet à un Webmaster d'interdire à un moteur de recherche comme Google ou Bing d'indexer une page ou de suivre les liens qu'elle contient.

Généralement, un webmaster est ravi que les moteurs d'indexation des principaux moteurs de recherche indexent la totalité de son site. Plus son site apparaitra dans les résultats de recherche, plus il aura du trafic "naturel".

Cependant, il peut arriver qu'un Webmaster ne souhaite pas que certaines pages de son site puissent apparaitre dans les résultats des moteurs de recherche (URL de back-office, contenu premium pour ses visiteurs uniquement, pages pas encore terminée...). La balise meta robot est un des moyens possibles pour bloquer cette indexation.

Pour cela, il suffit au webmaster de placer ces lignes entre les balises <head>...</head> de sa page :

<head>
...
<meta name="robots" content="none" />
...
</head>

Pourquoi utiliser la balise meta robots plutôt que le fichier robots.txt ?

La façon la plus répandue pour bloquer tout ou partie de son site à un robot d'indexation (comme Googlebot par exemple) est d'utiliser un fichier robots.txt

Cependant, il y a quelques cas où il vaut mieux utiliser une balise meta robots :

  • si un webmaster n'a pas le contrôle sur le fichier robots.txt placé à la racine de son site (par exemple une plateforme de blog mutualisée sur des milliers de webmaster avec un nom de domaine commun). Dans ce cas, le webmaster a la possibilité de placer une balise meta robots dans ces pages s'il souhaite en bloquer l'indexation.
  • la plupart des sites ont des "back-office", c'est à dire un accès secret et sécurisé qui permet par exemple d'accéder au contenu du site. Les moteurs d'indexation ne devraient jamais indexer ces zones. Mais si on bloque cette indexation via un fichier robots.txt, fichier qui n'est pas sécurisé, un hacker pourra facilement découvrir l'URL "secrète" du back-office. Dans ce cas, l'utilisation de la balise meta robot none permet de s'assurer que jamais cette URL secrète se retrouvera dans les pages de résultat des moteurs de recherche
  • même si une URL est bloquée par un fichier robots.txt, il peut arriver qu'elle puisse quand même remonter dans les résultats de moteurs de recherche (mais sans contenu utile associé). Par exemple si des backlinks pointent sur la page bloquées. Dans ce cas, une balise meta robot noindex permet de s'assurer que l'URL ne pourra jamais remonter dans les résultats des moteurs de recherche.

Les valeurs possibles de la balise meta robots

Les valeurs possibles de l'attribut "content" de la balises meta robots sont :

Variable Cas d’utilisation de la balise meta robots
noindex Cette balise meta robot empêche l’indexation de la page qui la contient.
Notez que la page sera tout de même crawlé mais ne sera pas indexé dans les résultats.
Pour empêcher le crawling et l’indexation d’une page, utilisez plutôt le fichier robot.txt
nofollow La balise meta robot nofollow empêche le robot de Google (googlebot) de suivre les liens contenus dans cette page.
none Equivalent à noindex et nofollow.
nosnippet La balise meta tag robot nosnippet empêche l’affichage d’un extrait du contenu dans les résultats de recherche.
noodp La balise meta tag noodp interdit l’utilisation d’une description de replacement tirée des annuaires DMOZ.
noarchive La balise meta robot noarchive sert à empêcher l’affichage d’un lien placé en cache et associé à une page..
unavailable_after: [date ]  Cette balise meta tag robot permet de préciser l’heure et la date exactes aux quelles l’exploration et l’indexation de la page en questions doivent cesser.
noimageindex Cette balise meta tag robot permet d’indiquer que la page en question doit être indiquée comme source d’une image.

Utilisation optimale de la balise meta robots

Voici les règles à connaître pour une utilisation optimale des meta robots :

La case dans les meta tags robots

Il n’y a pas de règle sur la façon de rédiger les meta tags robots. Googlebot est capable de lire de la même manière les lettres majuscules et les minuscules.

Ainsi les valeurs suivantes seront interprétées exactement de la même manière :

<meta name="ROBOTS" content="NOODP">
<meta name="robots" content="noodp">
<meta name="Robots" content="NoOdp">

Mais pour une lisibilité du code, nous vous conseillons de rester cohérent et de n’écrire que d’une seule façon.

Besoin d’insérer de multiples valeurs ?

Si vous devez utiliser plusieurs valeurs de meta tags robots, il est recommandé d’intégrer toutes les valeurs dans une seule meta tag robots. Cela facilitera la lecture des meta tags robots et évitera toute confusion ou conflit entre les différentes pages de votre site.

Si vous utilisez plusieurs valeur de meta tags robots, séparez-les avec des virgules ou un espace.

Exemple d’intégration :

<meta name="robots" content="noindex, nofollow">

Utilisation de valeurs meta robots conflictuelles

En cas d’utilisation de valeurs de meta tag robots contradictoires, par défaut les moteurs de recherche prendront en compte la valeur la plus restrictive.

Par exemple, si le page contient ces deux valeurs de meta robots :

<META NAME="ROBOTS" CONTENT="NOINDEX">
<META NAME="ROBOTS" CONTENT="INDEX">

Google ne prendra en compte que le valeur « NOINDEX » qui dans cet exemple est la valeur la plus restrictive

Conflit entre la balise meta robots et le fichier robots.txt

En cas d’instructions contradictoires entre le fichier robot.txt et les meta tags robots Google suivra la valeur la plus restrictive.

Ainsi, si :

  • une page est bloquée dans le fichier robots.txt, elle ne sera jamais crawlée par les moteurs de recherche qui ne pourront donc jamais lire les meta tags robots.
  • une page n’est pas bloquée dans le fichier robots.txt, mais bloquée à l’indexation avec les meta tags robots, alors la page sera accédée, crawlée mais ne sera pas indexée.

Balise meta robots spéciale pour Googlebot.

Si vous souhaitez donner des instructions à tous les moteurs sans distinction, utiliser alors la meta « robots ».

Pour communiquer exclusivement avec Google, alors utiliser la meta « googlebot »