Audit crawl et indexation, par où commencer ?

Un client me contacte la semaine dernière : son sitemap déclare 1 200 URLs, Google n'en indexe que 380. Personne dans l'équipe ne comprend pourquoi. Ce cas n'a rien d'exceptionnel, je le rencontre au moins deux fois par mois. Avant d'engager la moindre action corrective, il faut poser un diagnostic propre : c'est précisément ce qu'apporte un audit de crawl et d'indexation. L'idée n'est pas de brancher un outil et de lire un rapport automatique, mais de croiser trois sources complémentaires pour identifier où ça bloque réellement. Voici la méthode que j'applique systématiquement, les outils que j'utilise et les pièges à éviter pour démarrer ce diagnostic SEO du bon pied.

Qu'est-ce qu'un audit de crawl et d'indexation ?

Un audit de crawl et d'indexation est un diagnostic SEO ciblé sur la capacité de Googlebot à explorer puis à stocker les pages d'un site dans l'index de recherche. Il se distingue d'un audit SEO global parce qu'il ne touche ni à la sémantique, ni à la popularité. Il répond à une question unique : Google voit-il toutes les pages que vous souhaitez positionner ?

Trois notions se confondent souvent. La crawlabilité désigne la facilité avec laquelle un robot atteint vos URLs (aucune restriction technique, aucune page orpheline). L'indexation des pages intervient après le crawl : Google analyse le contenu récupéré, le compare à ce qu'il connaît déjà et décide ou non de le stocker. Le positionnement vient ensuite : une page peut être crawlée et indexée sans jamais remonter sur les bonnes requêtes en référencement naturel.

Sauter cette étape revient à optimiser des balises title sur des pages que Google n'explore même pas. C'est pour cette raison que l'audit de crawl et d'indexation précède toute autre action dans une démarche technique rigoureuse.

Par où commencer, la méthode en 4 étapes ?

Étape 1, lire le rapport d'indexation dans Google Search Console

La Google Search Console est le point de départ obligatoire. Son rapport "Indexation des pages" donne la vue officielle de Google sur votre site : nombre de pages indexées, nombre de pages non indexées et, pour chacune, la raison précise (Découverte actuellement non indexée, Explorée actuellement non indexée, Dupliquée sans canonique correcte, Bloquée par le robots.txt).

Exportez la totalité du rapport en CSV. Chaque raison correspond à un type de problème différent, donc à une action corrective différente. Un volume massif de pages en "Dupliquée sans canonique correcte" n'appelle pas la même réponse qu'une forte proportion de "Soft 404" ou de "Erreur serveur (5xx)".

Étape 2, inspecter le robots.txt et les sitemaps XML

Deux fichiers pilotent l'exploration d'un site. Le robots.txt indique à Googlebot ce qu'il peut crawler et ce qu'il doit ignorer. Les sitemaps XML listent les URLs que vous souhaitez voir explorer en priorité. Une erreur fréquente : un Disallow hérité d'une phase de recette qui bloque encore en production des pages stratégiques.

Vérifiez trois points précis. Le robots.txt doit être accessible et sans règle de blocage trop large sur la racine. Le sitemap XML doit être déclaré dans la Search Console et n'afficher ni erreur ni avertissement. Enfin, les URLs listées doivent toutes retourner un code 200 et ne pas être marquées en noindex (une incohérence qui arrive sur un site sur cinq).

Étape 3, lancer un crawl complet avec un spider

Pour objectiver ce qu'un robot voit réellement, il faut simuler son exploration. Auditer un site avec Screaming Frog fournit la cartographie exhaustive des URLs accessibles depuis la page d'accueil, leurs codes HTTP, leurs balises, leur profondeur, leurs redirections et la structure de liens internes.

Configurez le crawl pour respecter le robots.txt (cochez "Respect robots.txt") afin d'obtenir un comportement proche de Googlebot. Exportez ensuite trois rapports : toutes les URLs en statut 200 indexables, toutes les erreurs HTTP (4xx et 5xx) et la liste des pages orphelines (accessible via le menu Crawl Analysis).

Étape 4, croiser les trois sources et prioriser les corrections

C'est l'étape la plus utile et la plus souvent sautée. Construisez un tableau avec trois colonnes : URLs déclarées au sitemap, URLs découvertes par le crawler, URLs indexées selon Google Search Console. Les écarts racontent l'essentiel du diagnostic.

Écart détecté	Interprétation probable
URL dans sitemap, absente du crawl	Page orpheline, aucun lien interne ne la pointe
URL crawlée, absente du sitemap	Oubli de déclaration ou URL parasite à désindexer
URL crawlée et soumise, non indexée par Google	Problème de qualité, duplication ou canonique erronée

Priorisez ensuite en fonction de la valeur business et de la gravité du problème. Une fiche produit à 500 € de panier moyen qui n'est pas indexée passe avant cinq articles de blog bloqués à 20 impressions par mois.

Les problèmes d'indexation les plus fréquents

Sur les 50 derniers audits SEO que j'ai réalisés, la même dizaine de problèmes revient en boucle, et tous dégradent directement le référencement des pages concernées. En tête, les pages orphelines : présentes dans le sitemap ou anciennement reliées, elles ne reçoivent plus aucun lien interne. Googlebot les trouve difficilement, et sans liens internes entrants l'autorité du site ne leur parvient plus. La solution consiste à les réintégrer dans le maillage depuis une page de hub thématique.

Juste derrière, les balises noindex héritées. Très courantes après une migration ou après un passage en production d'une version de recette. Un site sur trois présente au moins cinq pages stratégiques en noindex par accident.

Les canoniques mal configurées, les soft 404 et les erreurs serveur 500 complètent le tableau. Une canonique qui pointe vers une autre URL envoie à Google le signal "ne pas indexer cette page, indexer l'autre à la place" : toutes les pages concernées disparaissent alors de l'index. Les soft 404 surviennent quand une page renvoie un code 200 mais affiche un contenu du type "Produit introuvable" (les pages de recherche interne vides en sont la source principale). Un temps de réponse serveur régulièrement au-dessus de 1 seconde réduit directement le volume de pages explorées par Googlebot, selon la documentation de Google Search Central.

Enfin, les duplications internes (pages accessibles via plusieurs URLs : avec ou sans slash final, HTTP et HTTPS, www et non-www, paramètres UTM) fragmentent l'autorité et diluent les liens internes. Une canonique bien posée ou une redirection 301 systématique règle le problème.

Faut-il s'inquiéter du budget crawl ?

La notion de budget crawl, souvent surévaluée en SEO, mérite d'être remise à sa place. Google la définit comme la combinaison de deux limites : la capacité d'exploration (ce que le serveur peut encaisser sans ralentir) et la demande d'exploration (la valeur que Google accorde aux pages du site).

Google Search Central précise que les sites de moins de 10 000 pages n'ont en pratique jamais de problème de budget crawl : Googlebot les explore en totalité sans contrainte. Le seuil devient réellement sensible au-delà, notamment sur les e-commerces qui génèrent des milliers d'URLs via les filtres, les tris et la pagination.

Pour surveiller ce budget, deux sources comptent. Le rapport "Statistiques sur l'exploration" dans la Search Console donne les requêtes quotidiennes de Googlebot, le temps de réponse moyen et le statut des réponses. Les logs serveur filtrés sur le user-agent Googlebot permettent ensuite de mesurer ce que Google crawle réellement par rapport à ce que vous souhaitez qu'il crawle. L'analyse des logs reste l'outil ultime pour un audit de crawl approfondi sur un site à forte volumétrie.

FAQ

Quelle différence entre crawl, indexation et positionnement ?

Le crawl est l'exploration d'une page par un robot : Googlebot télécharge son contenu HTML, JavaScript et ressources. L'indexation est l'étape suivante : Google analyse le contenu téléchargé et décide s'il mérite d'être stocké dans son index. Le positionnement, cible finale du référencement naturel, vient enfin : parmi toutes les pages indexées sur un sujet donné, Google classe les résultats selon la pertinence perçue. Une page peut être crawlée sans être indexée, et indexée sans être positionnée.

À quelle fréquence refaire un audit de crawl et d'indexation ?

Un audit complet tous les 6 à 12 mois suffit pour un site stable. En revanche, trois événements exigent un audit ponctuel : une migration ou une refonte, un lancement de nouveau gabarit de page, une chute soudaine du trafic organique. Un suivi mensuel du rapport d'indexation dans la Search Console permet de repérer les problèmes avant qu'ils ne pénalisent durablement le référencement du site.

Peut-on auditer le crawl sans Screaming Frog ?

Oui, partiellement. La Search Console seule couvre environ 60 % du diagnostic : état d'indexation, raisons de non-indexation, statistiques d'exploration. Pour les 40 % restants (pages orphelines, profondeur réelle, chaînes de redirections, balises en masse), un crawler reste nécessaire. Les alternatives gratuites comme Xenu Link Sleuth ou SiteAnalyzer offrent une partie des fonctionnalités, mais l'écart de précision se fait sentir dès qu'on dépasse quelques centaines de pages.

Comment savoir si une page précise est bien indexée ?

Trois méthodes complémentaires. L'inspection d'URL dans la Search Console donne la réponse la plus fiable : statut d'indexation, date du dernier crawl, nature du problème en cas de non-indexation. La recherche site:votredomaine.fr/chemin-de-la-page fournit une vérification rapide mais moins précise. Enfin, la recherche d'un extrait textuel unique entre guillemets permet de confirmer la présence dans l'index. Je privilégie toujours l'inspection d'URL, plus lente mais autoritative.

Un audit de crawl et d'indexation n'exige ni budget outils considérable, ni journées entières de travail. Avec la Search Console, un crawl complet et une heure d'analyse croisée, vous identifiez la majorité des blocages SEO qui freinent votre référencement naturel. Cette analyse s'inscrit dans un diagnostic plus large : celui de l'audit technique SEO dont le crawl et l'indexation forment la colonne vertébrale.

Audit de crawl et indexation, par où commencer ?