Le SEO technique : la balise canonique

Petit point à l’attention des équipes techniques, agences de développement web et référenceurs curieux :

Définition de la balise canonique
Appliquer une balise canonique
Quand utiliser une balise canonique ?
Pourquoi une canonique plutôt qu’une directive noindex ?
Faut-il canoniser une page vers elle-même ?
Faut-il appliquer une balise canonique sur ma pagination ?
C’est quoi ton truc de robots.txt et canonique ?
Intérêts de la balise canonique
Défauts de la balise canonique

Définition de la balise canonique

La balise canonique permet à Google d’identifier le contenu original parmi un ensemble de pages similaires afin qu’il n’explore qu’un exemplaire de cette page. Le plus souvent, il s’agit de pages avec des paramètres (QueryString).

Grosso modo, on peut assimiler la balise canonique à une pseudo redirection 301 à destination seulement des moteurs de recherche.

Le fonctionnement de la balise canonique

Concrètement : Google ne perd pas de temps sur des pages avec des filtres et va uniquement au contenu original. Pour le consultant SEO, l’intérêt est d’optimiser le crawl pour que le moteur aille sur davantage de pages importantes.

La documentation de Google est plus exhaustive mais moins sympathique : https://support.google.com/webmasters/answer/139066?hl=fr

Appliquer une balise canonique

En terme technique, la balise canonique s’implante souvent dans la balise head de cette façon :

<link rel="canonical" href="https://www.example.com" />

Compte tenu de sa fonction, on a intérêt à la mettre le plus haut possible dans le code

Elle peut aussi s’intégrer dans le header HTTP

Pour les détails techniques, ce très bon article de Moz : https://moz.com/blog/how-to-advanced-relcanonical-http-headers

Un rappel important : assurez-vous que les URLs de votre site qui envoient ainsi vers une autre URL ne sont pas référencées dans le sitemap.xml

Comment se servir de tout cela ?

  • Quand utiliser une balise canonique ?

Quand une page génère des filtres ou des paramètres nombreux et inutiles à l’indexation (cas des pages produit très segmentées, des recherches onsite…)

Une page que vous voulez désindexer a du jus SEO : avant sa mise en noindex, ou avant un passage des paramètres concernés dans le robots.txt

– Dans certains cas où vous voudriez afficher une autre page à l’utilisateur de façon temporaire, par exemple dans certains cas d’A/B testing, sans prendre le risque de modifier les performances SEO de la page originale

  • Pourquoi une canonique plutôt qu’une directive noindex ?

La différence majeure vient du comportement « redirectionnel » de la canonique pour les moteurs de recherche :

– Si vos filtres génèrent une énormité de paramètres, la canonique est plus recommandée : le simple « noindex, follow » permet l’exploration, et égarera quand même le moteur sur ces pages dupliquées.

– Dans le cas d’un site que vous récupérez, où des pages paramétrées sont déjà indexées, la canonique transmet vers la page-mère une partie du jus SEO des pages liées. Le noindex conserve un jus SEO dilué dans ces pages intermédiaires sans que ça n’ait de gros bénéfices. Bien vérifier quand même si celui-ci représente vraiment quelque chose (nous y reviendrons), sinon quoi la redirection 301 est la meilleure pratique.

– Quant au « noindex, nofollow » : je n’aime pas présenter des impasses à Google, au risque qu’il se téléporte ailleurs. Il peut être envisagé de placer une directive « nofollow » depuis les liens (<a>) émetteurs de paramètres, une alternative qui me semble moins intéressante que le robots.txt et qui surtout ne doit pas être fait avant désindexation de ces pages.

  • Faut-il canoniser une page vers elle-même ?

C’est une pratique qui ne coûte que quelques octets et qui évite des déconvenues. Ah, les templates CMS qui vous génèrent d’inutiles duplicata à base de QueryStrings !

Attention toutefois : certains de vos segments utiles au SEO peuvent être matérialisés sous forme de QueryStrings (http://www.example.com/logement?type=hotel, http://www.example.com/logement?p=2), auquel cas il faut exclure les pages-mères de cette directive

  • Faut-il appliquer une balise canonique sur ma pagination ?

Surtout pas ! Google serait incapable de lire ces pages et donc de suivre les liens vers des éléments plus anciens mais toujours importants pour le référencement. Une exception : dans le cas d’une pagination avec balise rel=next/prev.

  • C’est quoi ton truc de robots.txt et canonique ?

Admettons : vous travaillez sur un site avec tout un tas de paramètres indexés en masse (ou même de simples urls de pages pas super). On préconise souvent de passer tout cela en noindex, puis de les mettre dans le robots.txt. Mais si ces URLs apportaient quand même quelque chose au référencement ? Je vous suggère de vérifier par exemple :

– les statistiques de trafic SEO sur l’outil d’analytique,

– la profondeur de crawl de ces pages,

– les statistiques netlinking Majestic/Ahrefs

– les statistiques maillage interne avec Gephi par exemple

Il se pourrait bien que certains de ces « poids morts » aient en fait une utilité. La canonique est une méthode plus rassurante pour rediriger le moteur vers la bonne page en attendant de bloquer ces segments par robots.txt. Cela suppose que vous créiez des pages réceptacle de leur contenu, ou au contraire que vous indexiez une partie des filtres.

 

Pour résumer :

Intérêts de la balise canonique

  • Principal – Limiter le temps de crawl du moteur aux pages essentielles tout en les laissant accessibles à l’utilisateur. Le moteur peut perdre en effet énormément de temps et de ressource sur des pages de filtre, et ça pénalisera en plus vos performances de référencement (contenu dupliqué, pages sans valeur ajoutées…)
  • Important – Permettre la redirection du jus de pages de mauvaise qualité déjà indexées, avant d’implanter un robots.txt qui les concerne. C’est une utilisation maintenant courante que j’en fais.
  • Mineur – Contrecarrer une technique de negative SEO. Il fut une mode de « SEO négatif » de bombarder à l’indexation du contenu dupliqué en rajoutant des paramètres bidons à des URLs concurrentes. La canonique d’une page vers elle-même « empêche » ceci.

Défauts de la balise canonique

  • Majeur – La balise canonique est une sorte de rustine qui ne sert littéralement qu’au SEO, ce doit donc être une solution de dernière instance et non pas une solution principale.
  • Important – Elle n’est pas aussi efficace qu’une 301 lorsqu’il s’agit de rediriger le jus SEO
  • Notable – Le moteur parcourt quand même un petit échantillon de la page avant de lire la canonique. D’ailleurs, il est fréquent de voir des pages qui, bien que canoniques vers une autre, sont indexées.

 

Avant de clore cet article, une réflexion libre : j’interprète la balise hreflang de Google comme une sorte de balise canonique locale. Qu’en pensez-vous ?

Tous vos commentaires, remarques et questions sont les bienvenus.

Aurélien Blériot

Consultant & Chef de projet SEO en freelance, j'ai une forte affinité technique avec le référencement naturel.
Cartésien et curieux, je publie des articles synthétiques principalement venus d'études SEO.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *