Lettre de gauche Lettre de droite
Services

Lorsque l’on se penche sur la visibilité de votre site internet, de référencement naturel, on parle souvent d’indexation dans les moteurs de recherche, d’indexation dans Google. De quoi parle-t-on exactement ?

Si vous n’êtes pas familier avec le jargon du web, la première chose qui vous vient à l’esprit risque de ressembler à ça :

« Ah oui, c’est pas compliqué : l’index, c’est mon doigt. »
Oui, difficile de vous contredire là-dessus. C’est précisément le doigt qui sert à indiquer. Index… Indiquer… on tient quelque chose !

« Quand le sage désigne la lune, l’idiot regarde l’index digitus »

Comment fonctionne le robot d’indexation de Google ?

Sur Internet, l’index c’est ce qui désigne un répertoire, un catalogue, une liste qui vise à classifier les informations.

Par exemple, en bibliothèque, tous les livres sont classés par thème, auteur, etc. Ces informations sont traduites sur l’étiquette de la cote, et permettent de ranger les livres à leur place. L’index de la bibliothèque est donc la liste qui indique l’ensemble des livres que cette bibliothèque possède.

Sur Internet, les bibliothécaires sont les moteurs de recherche. Les livres, ce sont les pages des sites internet.
Ainsi, si vous tapez « sciences humaines » dans Google, le moteur va vous indiquer toutes les pages qui traitent des sciences humaines.

L’indexation de votre site web est la première composante du référencement dont l’objectif est de faciliter l’enregistrement des pages dans les bases de données, le catalogue, du moteur de recherche.

Être indexé par Google ne signifie pas être bien positionné dans les résultats de recherche : il s’agit simplement de la base du travail de référencement. Impossible d’être visible si vous ne figurez pas dans l’index des moteurs !

Le spider GoogleBot

L’indexation des pages d’un site web est une histoire de crawl. C’est-à-dire de « lecture » du code source par les robots, dont GoogleBoot le robot de Google. Les crawlers ou robots (ou spider) scrutent les pages, récupèrent les contenus ainsi que les liens internes et externes, puis les suivent pour passer de sites en sites.

L’analyse et le traitement des contenus aident les robots à calculer la pertinence des pages et de savoir s’ils doivent les conserver ou non dans l’index final. Le maillage interne est primordial, car il leur permet de naviguer entre les pages et d’en trouver de nouvelles à indexer.

GoogleBot n’aime pas être bloqué lorsqu’il parcourt le code source des pages. Il aime les pages claires, structurées, et bien conçues, afin de les crawler facilement et de trouver de nouvelles pages à parcourir.

Veiller à la bonne indexation d’un site, c’est vérifier que rien n’empêche le robot de Google de visiter et ranger le site dans son index. Donc éviter les facteurs bloquants (balise méta robot noindex, par exemple ou un fichier robots.txt mal paramétré).
C’est également faire en sorte que des pages inutiles pour l’internaute ne se retrouvent pas dans les résultats de recherche.

Le crawl budget

La notion de budget d’exploration ou crawl budget est un élément important à connaître en référencement naturel.
Selon la définition officielle de Google donnée en 2017, « le crawl budget peut se définir comme le nombre d’urls que GoogleBot peut et veut explorer ». En d’autres termes, il s’agit de la capacité d’indexation de GoogleBot pour chaque site, selon différents facteurs : intérêt pour le site, le contenu, la vitesse de chargement des pages, le nombre de pages en erreurs, etc.
Il faut travailler à faciliter le travail du crawler de Google pour l’inciter à venir visiter nos pages régulièrement, et à en indexer un maximum.

Index primaire et secondaire

L’index primaire ou index principal peut se définir comme les pages considérées par Google comme les plus intéressantes pour l’internaute, parmi celles indexées.

L’index secondaire est composé de pages d’intérêt moindre aux yeux de Google. On y trouve notamment les pages de contenu dupliqué ou jugées de mauvaise qualité par le moteur. Les mises à jour régulières de l’algorithme peuvent jouer un rôle dans l’indexation des urls dans les deux index.

Test utilisateur

L’index Mobile First

Officiellement lancé en octobre 2017 et terminé au printemps 2021, le projet Index mobile First consiste pour Google à indexer en priorité la version mobile des pages d’un site internet. Les urls sont crawlées par le robot googlebot pour smartphone. Ceci pour répondre aux attentes des internautes qui, au niveau mondial, utilisent majoritairement leur smartphone pour effectuer des recherches plutôt que leur ordinateur de bureau (desktop). Pour faciliter le travail du robot, il faut lui présenter un site responsive design.

Comment indexer une url ?

Il existe de nombreuses méthodes pour permettre à Google d’explorer au mieux vos pages et de les indexer.

1) Créer un site web structuré et ergonomique qui respecte les critères de Google, afin de faciliter le travail de GoogleBot. Et ainsi, lui permettre d’attribuer une pertinence maximale aux différentes pages. Un bon maillage interne rend l’indexation plus simple et assure de meilleurs résultats.
2) Obtenir un maximum de liens entrants de pages déjà indexées vers l’url que l’on souhaite référencer. Cette méthode permet de se faire remarquer plus rapidement.
3) Soumettre directement les nouvelles pages dans le formulaire d’indexation de Google. Celui-ci est accessible via la search console. Les urls seront traitées plus ou moins rapidement.
4) Créer un fichier sitemap.xml pour indiquer au robot du moteur de recherche les différentes pages du site que l’on souhaite indexer. Nous l’incitons ainsi à crawler de nombreuses pages et à en retenir un maximum dans son index.
5) Créer un fichier robots.txt pour déterminer les pages que l’on souhaite indexer ou non. Ce fichier a pour objectif de limiter l’indexation des pages non optimisées dans les résultats de recherche de Google (la SERP).

Pour résumer

Dans notre jargon web, l’indexation est la présence de votre site dans la base de données des moteurs de recherche. C’est la première étape pour que votre site devienne visible sur Internet !

L’index de Google contient des centaines de milliards de pages web. Il s’en crée tous les jours des millions, dont beaucoup ont de très mauvaise qualité (spam). Si le domaine de votre site n’est pas populaire, vos urls seront crawlées mais ont peu de chance d’être indexées. Ensuite, pour améliorer votre positionnement dans les résultats de Google, pensez “extraits enrichis“, pensez Microdonnées.

Ensemble, faisons grandir votre entreprise avec des solutions fiables et innovantes. Échangeons sur votre projet

Contactez-nous