Comment configurer correctement Robots.txt ?

Table des matières:

Comment configurer correctement Robots.txt ?
Comment configurer correctement Robots.txt ?
Anonim

Le bon txt Robots pour le site html crée des maquettes d'action pour les robots des moteurs de recherche, leur indiquant ce qu'ils peuvent vérifier. Ce fichier est souvent appelé le protocole d'exclusion de robot. La première chose que les robots recherchent avant d'explorer un site Web est robots.txt. Il peut pointer vers ou dire au sitemap de ne pas vérifier certains sous-domaines. Lorsque vous souhaitez que les moteurs de recherche recherchent ce qui est le plus fréquemment trouvé, alors robots.txt n'est pas nécessaire. Il est très important dans ce processus que le fichier soit formaté correctement et n'indexe pas la page de l'utilisateur avec les données personnelles de l'utilisateur.

Principe du robot scan

Le principe du robot scan
Le principe du robot scan

Lorsqu'un moteur de recherche rencontre un fichier et voit une URL interdite, il ne l'explore pas, mais il peut l'indexer. En effet, même si les robots ne sont pas autorisés à voir le contenu, ils peuvent se souvenir des backlinks pointant vers l'URL interdite. En raison de l'accès bloqué au lien, l'URL apparaîtra dans les moteurs de recherche, mais sans fragments. Si unpour la stratégie de marketing entrant, le bon txt Robots pour bitrix (Bitrix) est requis, ils fournissent une vérification du site à la demande de l'utilisateur par des scanners.

D'autre part, si le fichier n'est pas correctement formaté, le site peut ne pas apparaître dans les résultats de recherche et ne pas être trouvé. Les moteurs de recherche ne peuvent pas contourner ce fichier. Un programmeur peut afficher le robots.txt de n'importe quel site en accédant à son domaine et en le suivant avec robots.txt, par exemple, www.domain.com/robots.txt. En utilisant un outil comme la section d'optimisation SEO d'Unamo, où vous pouvez entrer n'importe quel domaine, et le service affichera des informations sur l'existence du fichier.

Restrictions pour la numérisation:

  1. L'utilisateur a un contenu obsolète ou sensible.
  2. Les images sur le site ne seront pas incluses dans les résultats de recherche d'images.
  3. Le site n'est pas encore prêt pour que la démo soit indexée par le robot.

Gardez à l'esprit que les informations qu'un utilisateur souhaite recevoir d'un moteur de recherche sont accessibles à toute personne saisissant l'URL. N'utilisez pas ce fichier texte pour masquer des données sensibles. Si le domaine a une erreur 404 (not found) ou 410 (passed), le moteur de recherche vérifie le site malgré la présence de robots.txt, auquel cas il considère que le fichier est manquant. D'autres erreurs telles que 500 (Internal Server Error), 403 (Forbidden), timed out ou "not available" respectent les instructions du fichier robots.txt, mais le contournement peut être retardé jusqu'à ce que le fichier soit disponible.

Créer un fichier de recherche

Création d'un fichier de recherche
Création d'un fichier de recherche

BeaucoupLes programmes CMS tels que WordPress ont déjà un fichier robots.txt. Avant de configurer correctement Robots txt WordPress, l'utilisateur doit se familiariser avec ses capacités afin de comprendre comment y accéder. Si le programmeur crée le fichier lui-même, il doit remplir les conditions suivantes:

  1. Doit être en minuscules.
  2. Utiliser l'encodage UTF-8.
  3. Enregistrer dans un éditeur de texte sous forme de fichier (.txt).

Lorsqu'un utilisateur ne sait pas où le placer, il contacte le fournisseur du logiciel du serveur Web pour savoir comment accéder à la racine d'un domaine ou se rend sur la console Google et le télécharge. Avec cette fonction, Google peut également vérifier si le bot fonctionne correctement et la liste des sites qui ont été bloqués à l'aide du fichier.

Le format principal du txt Robots correct pour bitrix (Bitrix):

  1. Légende robots.txt.
  2. , ajoute des commentaires qui sont utilisés comme notes uniquement.
  3. Ces commentaires seront ignorés par les scanners ainsi que les fautes de frappe de l'utilisateur.
  4. User-agent - indique sur quel moteur de recherche les instructions pour le fichier sont listées.
  5. L'ajout d'un astérisque () indique aux scanners que les instructions s'adressent à tout le monde.

Indiquant un bot spécifique, par exemple, Googlebot, Baiduspider, Applebot. Disallow indique aux robots quelles parties du site Web ne doivent pas être explorées. Il ressemble à ceci: User-agent:. L'astérisque signifie "tous les bots". Cependant, vous pouvez spécifier des pages pour desrobots. Pour ce faire, vous devez connaître le nom du bot pour lequel des recommandations sont définies.

Le bon txt robots pour Yandex pourrait ressembler à ceci:

Corriger les robots txt pour Yandex
Corriger les robots txt pour Yandex

Si le bot ne doit pas explorer le site, vous pouvez le spécifier, et pour trouver les noms des agents utilisateurs, il est recommandé de vous familiariser avec les fonctionnalités en ligne de useragentstring.com.

Optimisation de la page

Optimisation des pages
Optimisation des pages

Les deux lignes suivantes sont considérées comme un fichier robots.txt complet, et un seul fichier robots peut contenir plusieurs lignes d'agents utilisateurs et de directives qui désactivent ou activent l'exploration. Le format principal du txt Robots correct:

  1. Agent utilisateur: [nom d'utilisateur de l'agent].
  2. Disallow: [chaîne d'URL qui n'est pas explorée].

Dans le fichier, chaque bloc de directives est affiché comme discret, séparé par une ligne. Dans le fichier à côté du répertoire des utilisateurs de l'agent, chaque règle est appliquée à un ensemble spécifique de lignes séparées par des sections. Si un fichier a une règle multi-agent, le robot ne prendra en compte que le groupe d'instructions le plus spécifique.

Syntaxe technique

Syntaxe technique
Syntaxe technique

Il peut être considéré comme le "langage" des fichiers robots.txt. Il y a cinq termes qui peuvent exister dans ce format, les principaux incluent:

  1. User-agent - Robot d'exploration Web avec instructions d'exploration, généralement un moteur de recherche.
  2. Disallow est une commande utilisée pour indiquer à l'agent utilisateur de contourner(omission) d'une URL spécifique. Il n'y a qu'une seule condition interdite pour chacun.
  3. Autoriser. Pour le Googlebot qui obtient l'accès, même la page utilisateur est refusée.
  4. Crawl-delay - spécifie le nombre de secondes dont le crawler aura besoin avant de crawler. Lorsque le bot ne le confirme pas, la vitesse est définie dans la console Google.
  5. Sitemap - Utilisé pour localiser toutes les cartes XML associées à une URL.

Modèles correspondants

Quand il s'agit de bloquer des URL ou d'autoriser des robots txt valides, les opérations peuvent être assez délicates car elles vous permettent d'utiliser la correspondance de modèles pour couvrir un certain nombre de paramètres d'URL possibles. Google et Bing utilisent tous deux deux caractères qui identifient les pages ou les sous-dossiers que le SEO veut exclure. Les deux caractères sont l'astérisque () et le signe dollar ($), où:est un caractère générique qui représente n'importe quelle séquence de caractères. $ - correspond à la fin de l'URL.

Google propose une longue liste de syntaxes de modèles possibles qui expliquent à l'utilisateur comment configurer correctement un fichier txt Robots. Certains cas d'utilisation courants incluent:

  1. Empêcher le contenu dupliqué d'apparaître dans les résultats de recherche.
  2. Gardez toutes les sections du site Web privées.
  3. Enregistrer les pages internes des résultats de recherche en fonction de l'instruction ouverte.
  4. Indiquer l'emplacement.
  5. Empêcher les moteurs de recherche d'indexer certainsfichiers.
  6. Spécification d'un délai d'exploration pour arrêter le rechargement lors de l'analyse de plusieurs zones de contenu en même temps.

Vérification de la présence d'un fichier robot

S'il n'y a pas de zones sur le site qui doivent être explorées, alors robots.txt n'est pas du tout nécessaire. Si l'utilisateur n'est pas sûr que ce fichier existe, il doit saisir le domaine racine et le saisir à la fin de l'URL, quelque chose comme ceci: moz.com/robots.txt. Un certain nombre de robots de recherche ignorent ces fichiers. Cependant, en règle générale, ces robots n'appartiennent pas à des moteurs de recherche réputés. C'est le genre de spammeurs, d'agrégateurs de courrier et d'autres types de robots automatisés que l'on trouve en abondance sur Internet.

Il est très important de se rappeler que l'utilisation de la norme d'exclusion des robots n'est pas une mesure de sécurité efficace. En fait, certains robots peuvent démarrer avec des pages où l'utilisateur les définit en mode analyse. Il y a plusieurs parties qui entrent dans le fichier d'exception standard. Avant de dire au robot sur quelles pages il ne doit pas fonctionner, vous devez spécifier à quel robot parler. Dans la plupart des cas, l'utilisateur utilisera une simple déclaration qui signifie "tous les bots".

Optimisation SEO

Optimisation du référencement
Optimisation du référencement

Avant d'optimiser, l'utilisateur doit s'assurer qu'il ne bloque aucun contenu ou section du site qui doit être contourné. Les liens vers des pages bloquées par le bon txt Robots ne seront pas respectés. Cela signifie:

  1. Si elles ne sont pas liées à d'autres pages disponibles pour les moteurs de recherche, c'est-à-dire. pages,n'est pas bloqué par robots.txt ou un méta-robot, et les ressources associées ne seront pas explorées et ne pourront donc pas être indexées.
  2. Aucun lien ne peut être transmis d'une page bloquée à la destination du lien. Si une telle page existe, il est préférable d'utiliser un mécanisme de blocage différent de robots.txt.

Étant donné que d'autres pages peuvent renvoyer directement à une page contenant des informations personnelles et que vous souhaitez bloquer cette page des résultats de recherche, utilisez une méthode différente, telle que la protection par mot de passe ou les métadonnées sans index. Certains moteurs de recherche ont plusieurs agents utilisateurs. Par exemple, Google utilise Googlebot pour les recherches organiques et Googlebot-Image pour les recherches d'images.

La plupart des agents utilisateurs d'un même moteur de recherche suivent les mêmes règles, il n'est donc pas nécessaire de spécifier des directives pour chacun des plusieurs robots d'exploration, mais le fait de pouvoir le faire peut affiner l'exploration du contenu du site. Le moteur de recherche met en cache le contenu du fichier et met généralement à jour le contenu mis en cache au moins une fois par jour. Si l'utilisateur modifie le fichier et souhaite le mettre à jour plus rapidement que d'habitude, il peut envoyer l'URL robots.txt à Google.

Moteurs de recherche

Vérification de l'existence d'un fichier robot
Vérification de l'existence d'un fichier robot

Pour comprendre comment Robots txt fonctionne correctement, vous devez connaître les capacités des moteurs de recherche. En bref, leur capacité réside dans le fait qu'ils envoient des "scanners", qui sont des programmes quinaviguer sur Internet pour obtenir des informations. Ils stockent ensuite certaines de ces informations pour les transmettre ultérieurement à l'utilisateur.

Pour beaucoup de gens, Google est déjà Internet. En fait, ils ont raison, car c'est peut-être son invention la plus importante. Et bien que les moteurs de recherche aient beaucoup changé depuis leur création, les principes sous-jacents sont toujours les mêmes. Les robots d'exploration, également connus sous le nom de "bots" ou "araignées", trouvent des pages de milliards de sites Web. Les moteurs de recherche leur indiquent où aller, tandis que les sites individuels peuvent également communiquer avec les bots et leur dire quelles pages spécifiques ils doivent consulter.

Généralement, les propriétaires de sites ne souhaitent pas apparaître dans les moteurs de recherche: pages d'administration, portails principaux, catégories et balises, et autres pages d'informations. Le fichier robots.txt peut également être utilisé pour empêcher les moteurs de recherche de vérifier les pages. En bref, robots.txt indique aux robots d'indexation quoi faire.

Interdire les pages

C'est la partie principale du fichier d'exclusion du robot. Avec une simple déclaration, l'utilisateur dit à un bot ou à un groupe de bots de ne pas crawler certaines pages. La syntaxe est simple, par exemple, pour interdire l'accès à tout ce qui se trouve dans le répertoire « admin » du site, écrivez: Disallow: /admin. Cette ligne empêchera les bots d'explorer votresite.com/admin, votresite.com/admin/login, votresite.com/admin/files/secret.html, et toute autre chose sous le répertoire admin.

Pour interdire une page, spécifiez-la simplement dans la ligne d'interdiction: Disallow: /public/exception.html. Maintenant la page "exception"ne migrera pas, mais tout le reste du dossier "public" le sera.

Pour inclure plusieurs pages, listez-les simplement:

Répertoires et pages
Répertoires et pages

Ces quatre lignes du txt Robots correct pour symphony s'appliqueront à tout agent utilisateur répertorié en haut de la sectionrobots.txt pour

Interdire les pages
Interdire les pages

Plan du site:

Autres commandes:live - ne pas autoriser les robots d'indexation Web à indexer cpresources/ ou provider/.

Agent utilisateur:Interdire: /cpresources/.

Deny: / vendor / Disallow: /.env.

Établir des normes

L'utilisateur peut spécifier des pages spécifiques pour différents robots en combinant les deux éléments précédents, voici à quoi cela ressemble. Un exemple du txt Robots correct pour tous les moteurs de recherche est présenté ci-dessous.

Établir des normes
Établir des normes

Les sections "admin" et "privé" seront invisibles pour Google et Bing, mais Google verra toujours le répertoire "secret", contrairement à Bing. Vous pouvez spécifier des règles générales pour tous les bots à l'aide de l'agent utilisateur astérisque, puis donner des instructions spécifiques aux bots dans les sections suivantes. Avec les connaissances ci-dessus, l'utilisateur peut écrire un exemple du txt Robots correct pour tous les moteurs de recherche. Lancez simplement votre éditeur de texte préféré et dites aux bots qu'ils ne sont pas les bienvenus dans certaines parties du site.

Conseils pour améliorer les performances du serveur

SublimeText estun éditeur de texte polyvalent et la référence pour de nombreux programmeurs. Ses conseils de programmation reposent d'ailleurs sur un codage efficace. les utilisateurs apprécient la présence de raccourcis dans le programme. Si l'utilisateur souhaite voir un exemple de fichier robots.txt, il doit se rendre sur n'importe quel site et ajouter "/robots.txt" à la fin. Voici une partie du fichier robots.txt GiantBicycles.

Le programme permet de créer des pages que les utilisateurs ne souhaitent pas afficher dans les moteurs de recherche. Et a également quelques choses exclusives que peu de gens connaissent. Par exemple, alors que le fichier robots.txt indique aux bots où ne pas aller, le fichier sitemap fait le contraire et les aide à trouver ce qu'ils recherchent, et bien que les moteurs de recherche sachent probablement déjà où se trouve le sitemap, il n'obtient pas sur le chemin.

Il existe deux types de fichiers: page HTML ou fichier XML. Une page HTML est une page qui montre aux visiteurs toutes les pages disponibles sur un site Web. Dans son propre fichier robots.txt, il ressemble à ceci: Sitemap://www.makeuseof.com/sitemap_index.xml. Si le site n'est pas indexé par les moteurs de recherche, bien qu'il ait été parcouru plusieurs fois par des robots Web, vous devez vous assurer que le fichier est présent et que ses autorisations sont correctement définies.

Par défaut, cela arrivera à toutes les installations de SeoToaster, mais si nécessaire, vous pouvez le réinitialiser comme ceci: Fichier robots.txt - 644. Selon le serveur PHP, si cela ne fonctionne pas pour l'utilisateur, il est recommandé d'essayer ce qui suit: Fichier robots.txt - 666.

Réglage du délai de numérisation

La directive de délai de contournement informe certainsmoteurs de recherche la fréquence à laquelle ils peuvent indexer une page sur le site. Il est mesuré en secondes, bien que certains moteurs de recherche l'interprètent légèrement différemment. Certaines personnes voient le délai d'exploration 5 lorsqu'on leur dit d'attendre cinq secondes après chaque analyse pour démarrer la suivante.

D'autres interprètent cela comme une instruction de ne numériser qu'une page toutes les cinq secondes. Le robot ne peut pas analyser plus rapidement pour conserver la bande passante du serveur. Si le serveur doit correspondre au trafic, il peut définir un délai de contournement. En général, dans la plupart des cas, les utilisateurs n'ont pas à s'en soucier. C'est ainsi que le délai de crawl de huit secondes est défini - Délai de crawl: 8.

Mais tous les moteurs de recherche n'obéissent pas à cette directive. Par conséquent, lorsque vous interdisez des pages, vous pouvez définir différents délais d'exploration pour certains moteurs de recherche. Une fois toutes les instructions du fichier configurées, vous pouvez le télécharger sur le site. Assurez-vous d'abord qu'il s'agit d'un simple fichier texte et qu'il porte le nom robots.txt et qu'il se trouve sur votresite.com/robots.txt.

Meilleur bot WordPress

Meilleur robot WordPress
Meilleur robot WordPress

Il y a des fichiers et des répertoires sur un site WordPress qui doivent être verrouillés à chaque fois. Les répertoires que les utilisateurs doivent interdire sont le répertoire cgi-bin et les répertoires WP standard. Certains serveurs n'autorisent pas l'accès au répertoire cgi-bin, mais les utilisateurs doivent l'inclure dans la directive disallow avant de configurer correctement Robots txt WordPress

Répertoires WordPress standards,qui devraient bloquer sont wp-admin, wp-content, wp-includes. Ces répertoires ne contiennent pas de données initialement utiles aux moteurs de recherche, mais il existe une exception, c'est-à-dire qu'il existe un sous-répertoire nommé uploads dans le répertoire wp-content. Ce sous-répertoire doit être autorisé dans le fichier robot.txt car il inclut tout ce qui est chargé à l'aide de la fonction de téléchargement de médias WP. WordPress utilise des balises ou des catégories pour structurer le contenu.

Si des catégories sont utilisées, afin de créer le bon txt Robots pour Wordpress, comme spécifié par le fabricant du programme, il est nécessaire de bloquer les archives de balises de la recherche. Tout d'abord, ils vérifient la base de données en allant dans le panneau "Administration"> "Paramètres"> "Lien permanent".

Par défaut, la base est la balise, si le champ est vide: Disallow: / tag /. Si une catégorie est utilisée, vous devez désactiver la catégorie dans le fichier robot.txt: Disallow: /category/. Par défaut, la base est la balise, si le champ est vide: Disallow: /tag/. Si une catégorie est utilisée, vous devez désactiver la catégorie dans le fichier robot.txt: Disallow: /category/.

Fichiers utilisés principalement pour afficher du contenu, ils seront bloqués par le bon fichier Robots txt pour Wordpress:

Robots txt pour wordpress
Robots txt pour wordpress

Configuration de base de Joomla

Une fois que l'utilisateur a installé Joomla, vous devez afficher le paramètre txt correct de Joomla Robots dans la configuration globale, qui se trouve dans le panneau de configuration. Certains paramètres ici sont très importants pour le référencement. Trouvez d'abord le nom du site et assurez-vous quele nom abrégé du site est utilisé. Ensuite, ils trouvent un groupe de paramètres à droite du même écran, appelé paramètres SEO. Celui qui devra certainement changer est le second: utilisez une URL de réécriture.

Cela semble compliqué, mais cela aide fondamentalement Joomla à créer des URL plus propres. Plus visible si vous supprimez la ligne index.php des URL. Si vous le modifiez plus tard, les URL changeront et Google ne l'appréciera pas. Cependant, lors de la modification de ce paramètre, plusieurs étapes doivent être effectuées en même temps pour créer le bon robots txt pour Joomla:

  1. Trouvez le fichier htaccess.txt dans le dossier racine de Joomla.
  2. Marquez-le comme.htaccess (pas d'extension).
  3. Inclure le nom du site dans les titres de page.
  4. Trouvez les paramètres de métadonnées en bas de l'écran de configuration globale.

Robot dans le cloud MODX

Robot dans le nuage MODX
Robot dans le nuage MODX

Auparavant, MODX Cloud offrait aux utilisateurs la possibilité de contrôler le comportement permettant au fichier robots.txt d'être servi en fonction d'une bascule dans le tableau de bord. Bien que cela soit utile, il était possible d'autoriser accidentellement l'indexation sur les sites de développement/de développement en basculant une option dans le tableau de bord. De même, il était facile de désactiver l'indexation sur le site de production.

Aujourd'hui, le service suppose la présence de fichiers robots.txt dans le système de fichiers à l'exception suivante: tout domaine qui se termine par modxcloud.com servira de directive Disallow: /pour tous les agents utilisateurs, quelle que soit leur présence ou l'absence du dossier. Les sites de production qui reçoivent un véritable trafic de visiteurs devront utiliser leur propre domaine si l'utilisateur souhaite indexer son site.

Certaines organisations utilisent le bon txt Robots pour modx pour exécuter plusieurs sites Web à partir d'une seule installation à l'aide de Contexts. Un cas dans lequel cela pourrait être appliqué serait un site de marketing public combiné à des microsites de page de destination et éventuellement à un intranet non public.

Traditionnellement, cela a été difficile à faire pour les installations multi-utilisateurs car ils partagent la même racine de réseau. Avec MODX Cloud, c'est facile. Téléchargez simplement un fichier supplémentaire sur un site Web appelé robots-intranet.example.com.txt avec le contenu suivant et il bloquera l'indexation avec des robots qui fonctionnent bien et tous les autres noms d'hôte reviendront aux fichiers standard, sauf s'il existe d'autres nœuds de noms spécifiques.

Robots.txt est un fichier important qui aide l'utilisateur à créer un lien vers le site sur Google, les principaux moteurs de recherche et d'autres sites Web. Situé à la racine d'un serveur Web, le fichier demande aux robots Web d'explorer un site, de définir les dossiers qu'il doit ou non indexer, à l'aide d'un ensemble d'instructions appelé Bot Exclusion Protocol. Un exemple de Robots txt correct pour tous les moteurs de recherche obots.txt est particulièrement facile à faire avec SeoToaster. Un menu spécial a été créé pour lui dans le panneau de configuration, de sorte que le bot n'aura jamais à se surmener pour y accéder.

Conseillé: