DEVOJI

agence_web_mobile

DEVOJI

Référencement Google, le crawl budget

Dans le Référencement naturel Google, le crawl budget est la durée attribué pour l’exploration journalière de votre site web ou le nombre de pages de votre site internet que les moteurs de recherche parcourent chaque jour.

Comme la dimension d’internet est démesuré, les robots des moteurs de recherche doivent partager leurs efforts sur tous les sites web et placer des priorités d’exploration. Le crawl budget a été créé pour leur faciliter la tâche.

Crawl budget est un terme international, commun dans le SEO et au référencement naturel Google . En anglais il est aussi appelé « crawl space » ou « crawl time ».

L’importance du crawl budget dans le Réferencement Google ?

Pour augmenter l’indexation de votre site internet, il faut que les moteurs de recherche trouvent autant que possible vos pages indexables et le plus rapidement possible. Il est donc important de ne pas gaspiller votre crawl budget pour éviter qu’une partie de votre site internet reste inexplorée et donc inaccessible pour les visiteurs à travers les moteurs de recherche. L’optimisation de crawl budget est une priorité dans le référencement naturel Google.

Quel est le crawl budget pour mon site web ?

Le crawl budget est influencé par divers facteurs tels que la vitesse de chargement, le poids des pages ou la taille du site

Afin de connaitre l’exploration de votre site web vous devez examiner les fichiers log de votre serveur web. Les logs sont présents dans un fichier qui se trouve à la racine de votre serveur. Ils comptent de nombreuses informations, directement enregistrées par le serveur qui héberge votre site.

Chaque ressource chargée sur une page (css, image, javascript,…) génère une ligne de log dans le fichier. L’intérêt de cette analyse est la possibilité de reconstituer parfaitement le parcours des robots Google sur votre site. L’IP affichée dans une ligne de log permet de différencier les robots des moteurs de recherche des visiteurs naturels. Avec ces informations vous serez tout sur le passage des robots de Google.

En analysant le parcours des robots Google, vous pourrez détecter les pages qu’ils préfèrent, la fréquence des visites ce qui permet de mettre clairement en avant ses préférences.

référencement naturel SEO
référencement naturel SEO
crawl budget
crawl budget seo
gaspillage de crawl budget
Référencement naturel - crawl robot

Référencement Google : comment optimiser le crawl budget ?

Pour commence, il faut identifier où exactement nous gaspillons notre crawl budget. Les raisons les plus courantes du gaspillage de crawl budget sont :

• Liens brisés ou ceux qui redirigent vers d’autres pages
• Temps de chargement des pages élevé et l’expiration du temps de chargement
• URL incorrectes dans le sitemap XML
• Trop de pages non indexables

- Liens brisés ou ceux qui redirigent vers d’autres pages

Les liens brisés (error 404) aussi bien que les liens qui redirigent plusieurs fois vers d’autres pages (redirection 301 ou 302) n’aident pas le parcours de votre site internet par les robots. Dans ce cas-là, les moteurs de recherche peuvent interrompre l’exploration. Les moteurs de recherche et les navigateurs ont des limites en ce qui concerne le nombre de redirections enchaînées.

Grâce à la correction des liens cassés et des redirections enchaînées, vous pouvez rapidement récupérer une partie de votre crawl budget gaspillé. De plus, effectuer ces corrections améliore l’expérience d’utilisateurs.

- Temps de chargement des pages élevé et l’expiration du temps de chargement

Si le temps de chargement des pages est trop élevé ou même s’il expire avant que les pages se chargent, les moteurs de recherche ne peuvent pas visiter autant de pages qu’ils pourraient pendant le temps destiné à ce but. En plus, c’est aussi très mauvais du point de vue de l’expérience utilisateurs, ce qui résulte à la baisse du taux de conversion. Vous devez contrôler le temps de chargement de votre site internet régulièrement. 

Des outils comme DareboostPingdomWebPagetest ou GTmetrix permettent d’obtenir des informations sur le Temps de chargement de votre site internet.

Contrôlez régulièrement si vos pages se chargent assez vite, sinon procédez immédiatement à la correction. Un temps de chargement court des pages est essentiel pour votre succès sur Internet.

- URL incorrectes dans le sitemap XML

Toutes les URL dans le sitemap XML doivent être indexable. Les moteurs de recherche utilisent beaucoup votre sitemap XML pour trouver toutes les pages, surtout si le site web est grand. Si ce fichier contient des pages qui n’existent plus ou qui sont redirigées, vous gaspillez votre crawl budget. Contrôler régulièrement votre fichier sitemap, s’il n’y a pas d’URL non indexables.

Une des meilleures pratiques dans l’optimisation de crawl budget est diviser le fichier sitemap en plusieurs fichiers plus petits. Vous pouvez, par exemple, créer un fichier pour chaque section de votre site web. S’il y a un problème, vous pourrez déterminer vite dans quelle section il se trouve.

- Trop de pages non indexables

S’il y a trop de pages non indexables sur votre site web, mais qui sont accessibles pour les moteurs de recherche, ces derniers passent trop de temps en explorant des pages peu importantes.

Afin de trouver si vous avez trop de pages non indexables, contrôlez le nombre de pages que les moteurs de recherche ont trouvées sur votre site web. Pour cet objectif vous pouvez utiliser ou Screaming Frog ou l’application ContentKing.

- Structure des liens internes

La façon dont les liens internes sont répartis dans votre site web joue un rôle important dans l’optimisation de crawl budget. Nous allons l’appeler la structure des liens internes de votre site web. Sans prendre en considération les liens retour maintenant, il faut constater que les moteurs de recherche donnent beaucoup plus d’importance aux pages qui ont beaucoup de liens internes qu’à celles qui en ont peu.

Évitez la structure trop hiérarchique où les pages au milieu n’ont pas beaucoup de liens. C’est encore pire pour les pages à la fin de cette hiérarchie. À cause du manque de liens, les moteurs de recherche peuvent ignorer ces pages.

Assurez que vos pages les plus importantes aient beaucoup de liens internes. Les pages qui ont été récemment explorées gagnent d’habitude une meilleure position dans les moteurs de recherche que les autres pages. Pensez-y et ajustez votre structure des liens internes.

Quelques raisons du gaspillage de crawl budget !

Il y a de nombreuses raisons du gaspillage de crawl budget mais certaines reviennent très souvent.

  1. Filtres de produits
  2. Pages de résultats internes indexables
  3. Tag pages

Les deux premiers vas sont des pièges pour les robots des moteurs de recherche. Ils ont pour conséquence la création d’un nombre illimité d’URL accessibles pour les robots. Du point de vue de crawl budget c’est un problème important.

- Filtres de produits

Chaque critère d’un filtre a au minimum deux valeurs. En combinant ces critères, les visiteurs peuvent trouver facilement le produit qu’ils cherchent. Au niveau expérience utilisateur, c’est très utile. Par contre si les pages de filtres sont accessible pour les robots, un nombre infini d’URL est créé et gaspille votre crawl budget inutilement.

Solution :

  1. Informez les moteurs de recherche à travers le fichier robots.txt de ne pas accéder aux URL générées par les filtres de produits. Si ce n’est pas possible pour vous, dans Google Search console et dans Bing Webmaster Tools vous pouvez aussi empêcher Google et Bing d’explorer certaines pages.
  2. Ajoutez rel=”nofollow” aux liens sur les pages filtrées.

- Pages de résultats internes indexables

Dans la plupart de cas, il n’est pas approprié de laisser les robots explorer et indexer les pages de résultats de recherche internes. Cela peut engendrer des problèmes avec le contenu dupliqué qu’il faut éviter. Afin d’empêcher l’exploration et l’indexation de ces pages, vous devez informer les moteurs de recherche de ne pas y accéder.

Pour informer les moteurs de recherche de ne pas accéder aux pages de résultats de recherche internes, utilisez le fichier robots.txt. Si ce n’est pas possible pour vous, dans Google Search console et dans Bing Webmaster Tools vous pouvez aussi empêcher Google et Bing d’explorer certaines pages.

- Tag pages

Une autre raison d’obtenir un grand nombre de pages non indexables est l’utilisation de tag pages. Si vous avez un blog et vous écrivez beaucoup d’articles, la gestion des tags créer des milliers d’ouvertures pour les robots. Les tag pages ont fait surgir des problèmes avec l’exploration : les moteurs de recherche explorent ces pages, mais ils ne peuvent pas les indexer. Ils y gaspillent pourtant leur crawl budget.

Informez les moteurs de recherche de ne plus accéder aux tag pages à l’aide de votre fichier robots.txt.

Matt Cutts
Le nombre de pages que nous explorons est sensiblement proportionnel à votre PageRank. Si vous avez donc beaucoup de liens menant à votre page racine, nous l’explorerons sans doute. Cette page racine peut contenir des liens à d’autres pages qui vont obtenir le PageRank et nous les explorerons aussi. Quand vous vous plongez de plus en plus profond sur votre site web, le PageRank tend à diminuer. Même si Google ne met plus à jour en public les valeurs de PageRank des pages, nous pensons qu’elles continuent à faire partie de leur algorithme. Comme le PageRank est un terme déroutant, nous l’appelons autorité de page. Le message essentiel qu’il faut garder en esprit de cette interview est donc : il y a une relation très forte entre l’autorité de page et le crawl budget. Pour augmenter le crawl budget pour votre site web, il faut donc augmenter son autorité. Cela se fait en grande partie en obtenant des liens externes.

Matt Cutts

Laisser un commentaire