Comment bloquer l'indexation d'un site dans robots.txt : instructions et recommandations

Table des matières:

Comment bloquer l'indexation d'un site dans robots.txt : instructions et recommandations
Comment bloquer l'indexation d'un site dans robots.txt : instructions et recommandations
Anonim

Le travail d'un optimiseur SEO est à très grande échelle. Il est conseillé aux débutants de noter l'algorithme d'optimisation afin de ne manquer aucune étape. Sinon, la promotion ne sera guère qualifiée de réussie, car le site connaîtra constamment des échecs et des erreurs qui devront être corrigés pendant longtemps.

L'une des étapes d'optimisation consiste à travailler avec le fichier robots.txt. Chaque ressource devrait avoir ce document, car sans lui, il sera plus difficile de faire face à l'optimisation. Il exécute de nombreuses fonctions que vous devrez comprendre.

Assistant Robot

Le fichier robots.txt est un document en texte brut qui peut être visualisé dans le bloc-notes standard du système. Lors de sa création, vous devez définir l'encodage sur UTF-8 afin qu'il puisse être lu correctement. Le fichier fonctionne avec les protocoles http, https et FTP.

Ce document est un assistant pour rechercher des robots. Au cas où vous ne le sauriez pas, chaque système utilise des "araignées" qui parcourent rapidement le World Wide Web pour renvoyer les sites pertinents pour les requêtes.utilisateurs. Ces robots doivent avoir accès aux données des ressources, robots.txt fonctionne pour cela.

Pour que les araignées trouvent leur chemin, vous devez envoyer le document robots.txt au répertoire racine. Pour vérifier si le site possède ce fichier, saisissez « https://site.com.ua/robots.txt » dans la barre d'adresse du navigateur. Au lieu de "site.com.ua", vous devez entrer la ressource dont vous avez besoin.

Travailler avec robots.txt
Travailler avec robots.txt

Fonctions de document

Le fichier robots.txt fournit aux robots plusieurs types d'informations. Il peut donner un accès partiel afin que le "spider" scanne des éléments spécifiques de la ressource. L'accès complet vous permet de vérifier toutes les pages disponibles. Une interdiction complète empêche même les robots de commencer à vérifier, et ils quittent le site.

Après avoir visité la ressource, les "araignées" reçoivent une réponse appropriée à la requête. Il peut y en avoir plusieurs, tout dépend des informations contenues dans robots.txt. Par exemple, si le scan a réussi, le robot recevra le code 2xx.

Peut-être que le site a été redirigé d'une page à une autre. Dans ce cas, le robot reçoit le code 3xx. Si ce code se produit plusieurs fois, l'araignée le suivra jusqu'à ce qu'il reçoive une autre réponse. Bien qu'en règle générale, il n'utilise que 5 tentatives. Sinon, l'erreur 404 populaire apparaît.

Si la réponse est 4xx, alors le robot est autorisé à explorer tout le contenu du site. Mais dans le cas du code 5xx, la vérification peut s'arrêter complètement, car cela indique souvent des erreurs de serveur temporaires.

Rechercher des robots
Rechercher des robots

Pourquoibesoin de robots.txt ?

Comme vous l'avez peut-être deviné, ce fichier est le guide des robots vers la racine du site. Désormais, il est utilisé pour restreindre partiellement l'accès aux contenus inappropriés:

  • pages avec les informations personnelles des utilisateurs;
  • sites miroirs;
  • résultats de la recherche;
  • formulaires de soumission de données, etc.

S'il n'y a pas de fichier robots.txt à la racine du site, le robot explorera absolument tout le contenu. En conséquence, des données indésirables peuvent apparaître dans les résultats de recherche, ce qui signifie que vous et le site en souffrirez. S'il y a des instructions spéciales dans le document robots.txt, alors "l'araignée" les suivra et donnera les informations souhaitées par le propriétaire de la ressource.

Travailler avec un fichier

Pour utiliser robots.txt pour bloquer l'indexation du site, vous devez comprendre comment créer ce fichier. Pour ce faire, suivez les instructions:

  1. Créer un document dans Notepad ou Notepad++.
  2. Définir l'extension de fichier ".txt".
  3. Entrez les données et commandes requises.
  4. Enregistrez le document et téléchargez-le à la racine du site.

Comme vous pouvez le voir, à l'une des étapes, il est nécessaire de définir des commandes pour les robots. Ils sont de deux types: autoriser (Allow) et interdire (Disallow). En outre, certains optimiseurs peuvent spécifier la vitesse d'exploration, l'hôte et le lien vers le plan de page de la ressource.

Comment fermer un site de l'indexation
Comment fermer un site de l'indexation

Pour commencer à travailler avec robots.txt et bloquer complètement l'indexation du site, vous devez également comprendre les symboles utilisés. Par exemple, dans un documentutilisez "/", qui indique que le site entier est sélectionné. Si "" est utilisé, une séquence de caractères est requise. De cette manière, il sera possible de spécifier un dossier spécifique pouvant être analysé ou non.

Fonctionnalité des bots

Les "araignées" pour les moteurs de recherche sont différentes, donc si vous travaillez pour plusieurs moteurs de recherche à la fois, vous devrez alors prendre en compte ce moment. Leurs noms sont différents, ce qui signifie que si vous souhaitez contacter un robot spécifique, vous devrez spécifier son nom: "User Agent: Yandex" (sans les guillemets).

Si vous souhaitez définir des directives pour tous les moteurs de recherche, vous devez utiliser la commande: "User Agent: " (sans les guillemets). Afin de bloquer correctement l'indexation du site à l'aide de robots.txt, vous devez connaître les spécificités des moteurs de recherche populaires.

Le fait est que les moteurs de recherche les plus populaires Yandex et Google ont plusieurs bots. Chacun d'eux a ses propres tâches. Par exemple, Yandex Bot et Googlebot sont les principaux "spiders" qui explorent le site. Connaissant tous les bots, il sera plus simple d'affiner l'indexation de votre ressource.

Fonctionnement du fichier robots.txt
Fonctionnement du fichier robots.txt

Exemples

Donc, avec l'aide de robots.txt, vous pouvez fermer le site de l'indexation avec des commandes simples, l'essentiel est de comprendre ce dont vous avez spécifiquement besoin. Par exemple, si vous souhaitez que Googlebot n'approche pas votre ressource, vous devez lui donner la commande appropriée. Il ressemblera à: "User-agent: Googlebot Disallow: /" (sans les guillemets).

Maintenant, nous devons comprendre le contenu de cette commande et son fonctionnement. Donc "User-agent"est utilisé afin d'utiliser un appel direct à l'un des bots. Ensuite, nous indiquons à laquelle, dans notre cas, c'est Google. La commande "Disallow" doit démarrer sur une nouvelle ligne et interdire au robot d'entrer sur le site. Le symbole de barre oblique dans ce cas indique que toutes les pages de la ressource sont sélectionnées pour l'exécution de la commande.

A quoi sert robots.txt ?
A quoi sert robots.txt ?

Dans robots.txt, vous pouvez désactiver l'indexation pour tous les moteurs de recherche avec une simple commande: "User-agent:Disallow: /" (sans les guillemets). Le caractère astérisque dans ce cas désigne tous les robots de recherche. En règle générale, une telle commande est nécessaire pour suspendre l'indexation du site et commencer un travail cardinal sur celui-ci, ce qui pourrait autrement affecter l'optimisation.

Si la ressource est volumineuse et comporte de nombreuses pages, elle contient souvent des informations confidentielles qu'il est soit indésirable de divulguer, soit susceptibles d'avoir une incidence négative sur la promotion. Dans ce cas, vous devez comprendre comment fermer la page à partir de l'indexation dans robots.txt.

Vous pouvez masquer un dossier ou un fichier. Dans le premier cas, vous devez recommencer en contactant un bot spécifique ou tout le monde, nous utilisons donc la commande "User-agent", et ci-dessous nous spécifions la commande "Disallow" pour un dossier spécifique. Il ressemblera à ceci: "Disallow:/folder/" (sans les guillemets). De cette façon, vous masquez tout le dossier. S'il contient un fichier important que vous souhaitez afficher, vous devez écrire la commande ci-dessous: "Autoriser: /dossier/fichier.php" (sans les guillemets).

Vérifier le fichier

Si vous utilisez robots.txt pour fermer le site depuisVous avez réussi à indexer, mais vous ne savez pas si toutes vos directives ont fonctionné correctement, vous pouvez vérifier l'exactitude du travail.

Tout d'abord, vous devez vérifier à nouveau l'emplacement du document. N'oubliez pas qu'il doit être exclusivement dans le dossier racine. S'il se trouve dans le dossier racine, cela ne fonctionnera pas. Ensuite, ouvrez le navigateur et entrez-y l'adresse suivante: « https://votresite. com/robots.txt (sans les guillemets). Si vous obtenez une erreur dans votre navigateur Web, le fichier n'est pas là où il devrait être.

Comment fermer un dossier à partir de l'indexation
Comment fermer un dossier à partir de l'indexation

Les directives peuvent être vérifiées dans des outils spéciaux utilisés par presque tous les webmasters. Nous parlons des produits Google et Yandex. Par exemple, dans Google Search Console, il existe une barre d'outils dans laquelle vous devez ouvrir "Crawl", puis exécuter "l'outil d'inspection de fichier Robots.txt". Vous devez copier toutes les données du document dans la fenêtre et lancer la numérisation. Exactement la même vérification peut être effectuée dans Yandex. Webmaster.

Conseillé: