Comment bloquer l'indexation d'un site dans robots.txt : instructions et recommandations

2025 Auteur: Trinity Chesterton | [email protected]. Dernière modifié: 2025-01-23 10:08

Le travail d'un optimiseur SEO est à très grande échelle. Il est conseillé aux débutants de noter l'algorithme d'optimisation afin de ne manquer aucune étape. Sinon, la promotion ne sera guère qualifiée de réussie, car le site connaîtra constamment des échecs et des erreurs qui devront être corrigés pendant longtemps.

L'une des étapes d'optimisation consiste à travailler avec le fichier robots.txt. Chaque ressource devrait avoir ce document, car sans lui, il sera plus difficile de faire face à l'optimisation. Il exécute de nombreuses fonctions que vous devrez comprendre.

Assistant Robot

Le fichier robots.txt est un document en texte brut qui peut être visualisé dans le bloc-notes standard du système. Lors de sa création, vous devez définir l'encodage sur UTF-8 afin qu'il puisse être lu correctement. Le fichier fonctionne avec les protocoles http, https et FTP.

Ce document est un assistant pour rechercher des robots. Au cas où vous ne le sauriez pas, chaque système utilise des "araignées" qui parcourent rapidement le World Wide Web pour renvoyer les sites pertinents pour les requêtes.utilisateurs. Ces robots doivent avoir accès aux données des ressources, robots.txt fonctionne pour cela.

Pour que les araignées trouvent leur chemin, vous devez envoyer le document robots.txt au répertoire racine. Pour vérifier si le site possède ce fichier, saisissez « https://site.com.ua/robots.txt » dans la barre d'adresse du navigateur. Au lieu de "site.com.ua", vous devez entrer la ressource dont vous avez besoin.

Fonctions de document

Le fichier robots.txt fournit aux robots plusieurs types d'informations. Il peut donner un accès partiel afin que le "spider" scanne des éléments spécifiques de la ressource. L'accès complet vous permet de vérifier toutes les pages disponibles. Une interdiction complète empêche même les robots de commencer à vérifier, et ils quittent le site.

Après avoir visité la ressource, les "araignées" reçoivent une réponse appropriée à la requête. Il peut y en avoir plusieurs, tout dépend des informations contenues dans robots.txt. Par exemple, si le scan a réussi, le robot recevra le code 2xx.

Peut-être que le site a été redirigé d'une page à une autre. Dans ce cas, le robot reçoit le code 3xx. Si ce code se produit plusieurs fois, l'araignée le suivra jusqu'à ce qu'il reçoive une autre réponse. Bien qu'en règle générale, il n'utilise que 5 tentatives. Sinon, l'erreur 404 populaire apparaît.

Si la réponse est 4xx, alors le robot est autorisé à explorer tout le contenu du site. Mais dans le cas du code 5xx, la vérification peut s'arrêter complètement, car cela indique souvent des erreurs de serveur temporaires.

Pourquoibesoin de robots.txt ?

Comme vous l'avez peut-être deviné, ce fichier est le guide des robots vers la racine du site. Désormais, il est utilisé pour restreindre partiellement l'accès aux contenus inappropriés:

pages avec les informations personnelles des utilisateurs;
sites miroirs;
résultats de la recherche;
formulaires de soumission de données, etc.

S'il n'y a pas de fichier robots.txt à la racine du site, le robot explorera absolument tout le contenu. En conséquence, des données indésirables peuvent apparaître dans les résultats de recherche, ce qui signifie que vous et le site en souffrirez. S'il y a des instructions spéciales dans le document robots.txt, alors "l'araignée" les suivra et donnera les informations souhaitées par le propriétaire de la ressource.

Travailler avec un fichier

Pour utiliser robots.txt pour bloquer l'indexation du site, vous devez comprendre comment créer ce fichier. Pour ce faire, suivez les instructions:

Créer un document dans Notepad ou Notepad++.
Définir l'extension de fichier ".txt".
Entrez les données et commandes requises.
Enregistrez le document et téléchargez-le à la racine du site.

Comme vous pouvez le voir, à l'une des étapes, il est nécessaire de définir des commandes pour les robots. Ils sont de deux types: autoriser (Allow) et interdire (Disallow). En outre, certains optimiseurs peuvent spécifier la vitesse d'exploration, l'hôte et le lien vers le plan de page de la ressource.

Pour commencer à travailler avec robots.txt et bloquer complètement l'indexation du site, vous devez également comprendre les symboles utilisés. Par exemple, dans un documentutilisez "/", qui indique que le site entier est sélectionné. Si "" est utilisé, une séquence de caractères est requise. De cette manière, il sera possible de spécifier un dossier spécifique pouvant être analysé ou non.

Fonctionnalité des bots

Les "araignées" pour les moteurs de recherche sont différentes, donc si vous travaillez pour plusieurs moteurs de recherche à la fois, vous devrez alors prendre en compte ce moment. Leurs noms sont différents, ce qui signifie que si vous souhaitez contacter un robot spécifique, vous devrez spécifier son nom: "User Agent: Yandex" (sans les guillemets).

Si vous souhaitez définir des directives pour tous les moteurs de recherche, vous devez utiliser la commande: "User Agent: " (sans les guillemets). Afin de bloquer correctement l'indexation du site à l'aide de robots.txt, vous devez connaître les spécificités des moteurs de recherche populaires.

Le fait est que les moteurs de recherche les plus populaires Yandex et Google ont plusieurs bots. Chacun d'eux a ses propres tâches. Par exemple, Yandex Bot et Googlebot sont les principaux "spiders" qui explorent le site. Connaissant tous les bots, il sera plus simple d'affiner l'indexation de votre ressource.

Exemples

Donc, avec l'aide de robots.txt, vous pouvez fermer le site de l'indexation avec des commandes simples, l'essentiel est de comprendre ce dont vous avez spécifiquement besoin. Par exemple, si vous souhaitez que Googlebot n'approche pas votre ressource, vous devez lui donner la commande appropriée. Il ressemblera à: "User-agent: Googlebot Disallow: /" (sans les guillemets).

Maintenant, nous devons comprendre le contenu de cette commande et son fonctionnement. Donc "User-agent"est utilisé afin d'utiliser un appel direct à l'un des bots. Ensuite, nous indiquons à laquelle, dans notre cas, c'est Google. La commande "Disallow" doit démarrer sur une nouvelle ligne et interdire au robot d'entrer sur le site. Le symbole de barre oblique dans ce cas indique que toutes les pages de la ressource sont sélectionnées pour l'exécution de la commande.

Dans robots.txt, vous pouvez désactiver l'indexation pour tous les moteurs de recherche avec une simple commande: "User-agent:Disallow: /" (sans les guillemets). Le caractère astérisque dans ce cas désigne tous les robots de recherche. En règle générale, une telle commande est nécessaire pour suspendre l'indexation du site et commencer un travail cardinal sur celui-ci, ce qui pourrait autrement affecter l'optimisation.

Si la ressource est volumineuse et comporte de nombreuses pages, elle contient souvent des informations confidentielles qu'il est soit indésirable de divulguer, soit susceptibles d'avoir une incidence négative sur la promotion. Dans ce cas, vous devez comprendre comment fermer la page à partir de l'indexation dans robots.txt.

Vous pouvez masquer un dossier ou un fichier. Dans le premier cas, vous devez recommencer en contactant un bot spécifique ou tout le monde, nous utilisons donc la commande "User-agent", et ci-dessous nous spécifions la commande "Disallow" pour un dossier spécifique. Il ressemblera à ceci: "Disallow:/folder/" (sans les guillemets). De cette façon, vous masquez tout le dossier. S'il contient un fichier important que vous souhaitez afficher, vous devez écrire la commande ci-dessous: "Autoriser: /dossier/fichier.php" (sans les guillemets).

Vérifier le fichier

Si vous utilisez robots.txt pour fermer le site depuisVous avez réussi à indexer, mais vous ne savez pas si toutes vos directives ont fonctionné correctement, vous pouvez vérifier l'exactitude du travail.

Tout d'abord, vous devez vérifier à nouveau l'emplacement du document. N'oubliez pas qu'il doit être exclusivement dans le dossier racine. S'il se trouve dans le dossier racine, cela ne fonctionnera pas. Ensuite, ouvrez le navigateur et entrez-y l'adresse suivante: « https://votresite. com/robots.txt (sans les guillemets). Si vous obtenez une erreur dans votre navigateur Web, le fichier n'est pas là où il devrait être.

Comment fermer un dossier à partir de l'indexation

Les directives peuvent être vérifiées dans des outils spéciaux utilisés par presque tous les webmasters. Nous parlons des produits Google et Yandex. Par exemple, dans Google Search Console, il existe une barre d'outils dans laquelle vous devez ouvrir "Crawl", puis exécuter "l'outil d'inspection de fichier Robots.txt". Vous devez copier toutes les données du document dans la fenêtre et lancer la numérisation. Exactement la même vérification peut être effectuée dans Yandex. Webmaster.

Conseillé:

Indexation du site dans les moteurs de recherche. Comment le site est indexé dans "Yandex" et "Google"

Voulez-vous que votre site apparaisse dans les requêtes de résultats des moteurs de recherche ? Ensuite, il doit être traité par les moteurs de recherche Rambler, Yandex, Google, Yahoo, etc. Vous devez informer les moteurs de recherche (araignées, systèmes) de l'existence de votre site Web, puis ils le crawleront en tout ou en partie

Indexation des pages. Indexation rapide du site par les moteurs de recherche "Google" et "Yandex"

Un article sur ce qu'est l'indexation des pages ; comment s'effectue l'indexation par les moteurs de recherche, ainsi que comment accélérer l'indexation de votre propre site et comment l'interdire

Comment configurer un amplificateur : instructions et recommandations. Comment connecter un amplificateur dans une voiture

Le subwoofer est une chose indispensable pour ceux qui veulent profiter pleinement de l'écoute de la musique. Mais le problème est que la puissance de la radio n'est pas suffisante pour son fonctionnement normal. Il faut brancher un ampli. Et l'installation n'est que la moitié de la bataille. Vous devez savoir comment configurer correctement l'amplificateur. Nous en parlerons et pas seulement dans notre article d'aujourd'hui

Comment bloquer une carte SIM Beeline ? Comment bloquer un numéro Beeline

Chaque appareil mobile est équipé d'un identifiant unique - une carte SIM qui stocke d'énormes quantités d'informations, avec laquelle vous pouvez rester en contact avec n'importe qui de n'importe où dans le monde. Il arrive souvent que cet élément le plus important doive être restauré à nouveau. Dans cet article, nous verrons comment bloquer une carte SIM Beeline et installer un filtre d'appels indésirables

Comment bloquer un contact sur WhatsApp ? Instructions détaillées pour bloquer et débloquer un contact

L'une des vraies tendances peut légitimement être considérée comme l'application WhatsApp. C'est cette installation qui vous permet d'appeler gratuitement partout dans le monde sur un téléphone avec la même application installée. Aujourd'hui, cette application est installée partout et partout, aux quatre coins de la planète. Mais quelle est la particularité de cette application ? A-t-il la possibilité de bloquer un contact sur WhatsApp ? Comment faire?

Comment bloquer l'indexation d'un site dans robots.txt : instructions et recommandations

Table des matières:

Assistant Robot

Fonctions de document

Pourquoibesoin de robots.txt ?

Travailler avec un fichier

Fonctionnalité des bots

Exemples

Vérifier le fichier

Conseillé:

Indexation du site dans les moteurs de recherche. Comment le site est indexé dans "Yandex" et "Google"

Indexation des pages. Indexation rapide du site par les moteurs de recherche "Google" et "Yandex"

Comment configurer un amplificateur : instructions et recommandations. Comment connecter un amplificateur dans une voiture

Comment bloquer une carte SIM Beeline ? Comment bloquer un numéro Beeline

Comment bloquer un contact sur WhatsApp ? Instructions détaillées pour bloquer et débloquer un contact

Moyens de reconstituer le solde de "MegaFon" à partir d'une carte bancaire

Comment retirer de l'argent de Beeline : trucs et astuces

Modems Huawei 4G : aperçu, spécifications, modèles et avis

"Nokia 6700": spécifications et avis

Fournisseur Internet MTS : avis d'utilisateurs

"Multipass": désactiver le service. Comment désactiver "Multipass" ?

Configurer Beeline Internet sur Android. Paramètres Internet automatiques "Beeline"

Bureaux "Beeline", Moscou : adresses, téléphones

L'opérateur "Mégaphone" ne capte pas le réseau : causes possibles et solutions au problème

Comment activer l'itinérance en Crimée ?

Comment retirer une carte d'Aliexpress : un guide étape par étape

Plateforme Internet, ou commerce en ligne

Comment ouvrir un portefeuille Qiwi au Kazakhstan : enregistrement, réapprovisionnement, retrait d'argent

Méthode "Aphrodite" Tatyana Vorobyova: critiques. Cours de gain en ligne

"Flèche" (carte) : avis sur la carte des transports