Pagina principala » scos din priză » Ce este fișierul Robots.txt într-un domeniu?

    Ce este fișierul Robots.txt într-un domeniu?

    Dacă dețineți un site web și aveți grijă de sănătatea site-ului dvs., trebuie să vă familiarizați foarte mult cu fișierul robots.txt din domeniul dvs. Credeți sau nu, că sunt un număr alarmant de mare de oameni care lansează rapid un domeniu, instalați un site web WordPress rapid și nu vă faceți niciodată deranjul de a face ceva cu fișierul robots.txt.

    Asta e periculos. Un fișier robots.txt configurat prost poate duce la distrugerea sănătății SEO a site-ului dvs. și poate afecta orice posibilitate de creștere a traficului.

    Ce este fișierul Robots.txt?

    robots.txt fișierul este denumit în mod corespunzător deoarece este în esență un fișier care enumeră directivele pentru roboții web (cum ar fi roboții motoarelor de căutare) cu privire la modul și ce pot accesa cu crawlere pe site-ul dvs. Web. Acesta a fost un standard web urmat de site-uri web din 1994 și toate crawlerele web majore respectă standardul.

    Fișierul este stocat în format text (cu extensie .txt) în directorul rădăcină al site-ului dvs. Web. De fapt, puteți vizualiza fișierul robot.txt al fiecărui site web doar prin tastarea domeniului urmat de /robots.txt. Dacă încercați acest lucru cu groovyPost, veți vedea un exemplu de fișier bine structurat robot.txt.

    Fișierul este simplu, dar eficient. Acest exemplu de fișier nu face diferența între roboți. Comenzile sunt emise pentru toate roboții folosind Agent utilizator: * directivă. Aceasta înseamnă că toate comenzile care o urmează se aplică tuturor roboților care vizitează site-ul pentru al accesa cu crawlere.

    Specificarea crawlerelor web

    De asemenea, puteți specifica reguli specifice pentru crawlerele web specifice. De exemplu, ați putea permite Googlebot (crawler-ul web Google) să acceseze cu crawlere toate articolele de pe site-ul dvs., însă este posibil să refuzați crawlerul web rus Yandex Bot să acceseze cu crawlere articole de pe site-ul dvs. care au dereglat informații despre Rusia.

    Există sute de crawlere web care scot pe Internet informații despre site-uri web, dar cele 10 cele mai comune pe care ar trebui să le îngrijorezi sunt listate aici.

    • Googlebot: Motorul de căutare Google
    • Bingbot: Motorul de căutare Microsoft Bing
    • Slurp: Motorul de căutare Yahoo
    • DuckDuckBot: Motorul de căutare DuckDuckGo
    • Baiduspider: Motorul de căutare chinez Baidu
    • YandexBot: Motorul de căutare rusesc Yandex
    • Exabot: Motorul de căutare francez Exalead
    • Facebot: Botul de crawlare al lui Facebook
    • ia_archiver: Crawlerul clasamentului web al lui Alexa
    • MJ12bot: Baza de date de indexare a legăturilor mari

    Luând exemplul de mai sus, dacă doriți să permiteți Googlebot să indexeze totul pe site-ul dvs., dar dorea să blocheze utilizarea de către Yandex a conținutului dvs. de articol în limba rusă, ați adăugat următoarele fișiere în fișierul dvs. robots.txt.


    Agent-utilizator: googlebot
    Dezactivați: Dezactivați: / wp-admin /
    Dezactivați: /wp-login.php

    Agent utilizator: yandexbot
    Dezactivați: Dezactivați: / wp-admin /
    Dezactivați: /wp-login.php
    Nu permiteți: / russia /

    După cum puteți vedea, prima secțiune blochează numai Google din accesarea cu crawlere a paginii dvs. de conectare WordPress și a paginilor administrative. A doua secțiune blochează Yandex de la aceleași, dar și din întreaga zonă a site-ului dvs. unde ați publicat articole cu conținut anti-Rusia.

    Acesta este un exemplu simplu de modul în care puteți utiliza dezaproba comanda pentru a controla crawlerele web specifice care vizitează site-ul dvs. Web.

    Alte comenzi Robots.txt

    Respingerea nu este singura comandă la care aveți acces în fișierul dvs. robots.txt. De asemenea, puteți utiliza oricare dintre celelalte comenzi care vor îndruma modul în care un robot poate accesa cu crawlere site-ul dvs..

    • dezaproba: Spune agentului utilizator să evite accesarea cu crawlere a adreselor URL specifice sau a unor secțiuni întregi ale site-ului dvs..
    • Permite: Vă permite să finalizați finalizarea anumitor pagini sau subdirectoare pe site-ul dvs., chiar dacă s-ar putea să fi anulat un dosar părinte. De exemplu, puteți dezactiva: / about /, dar apoi permiteți: / about / ryan /.
    • Crawl de întârziere: Aceasta informează crawlerul să aștepte xx numărul de secunde înainte de a începe să acceseze cu crawlere conținutul site-ului.
    • Harta site-ului: Oferiți motoarelor de căutare (Google, Ask, Bing și Yahoo) locația sitemap-urilor dvs. XML.

    Ține minte că botii vor numai ascultați comenzile pe care le-ați furnizat când specificați numele botului.

    O greșeală obișnuită pe care o fac oamenii este faptul că nu acceptă domenii ca / ​​wp-admin / de la toți bots, dar apoi specifică o secțiune googlebot și nu acceptă decât alte domenii (cum ar fi / about /).

    Deoarece botii urmăresc doar comenzile pe care le specificați în secțiunea lor, trebuie să redați toate celelalte comenzi pe care le-ați specificat pentru toate roboții (folosind * user-agent).

    • dezaproba: Comanda a fost folosită pentru a indica unui agent utilizator să nu acceseze cu crawlere o anumită adresă URL. Este permisă o singură linie "Disallow:" pentru fiecare adresă URL.
    • Permiteți (se aplică numai pentru Googlebot): Comanda pentru a spune Googlebot că poate accesa o pagină sau un subfolder chiar dacă pagina sau părțile sale părinte pot fi interzise.
    • Crawl de întârziere: Câte secunde trebuie să aștepte un crawler înainte de încărcarea și accesarea cu crawlere a conținutului paginii. Rețineți că Googlebot nu recunoaște această comandă, însă rata de accesare cu crawlere poate fi setată în Consola de căutare Google.
    • Harta site-ului: Se utilizează pentru a apela locația unei sitemap-uri XML asociate cu această adresă URL. Rețineți că această comandă este acceptată numai de Google, Ask, Bing și Yahoo.

    Rețineți că robots.txt are rolul de a ajuta boturile legitime (cum ar fi motoarele de căutare) să acceseze cu crawlere site-ul dvs. mai eficient.

    Există o mulțime de crawlere nefavorabile care afectează site-ul dvs. pentru a face lucruri cum ar fi răsturnarea adreselor de e-mail sau furtul conținutului dvs. Dacă doriți să încercați să utilizați fișierul robots.txt pentru a bloca accesarea crawlerilor de pe site-ul dvs., nu vă deranjați. Creatorii acestor crawlere ignoră, de obicei, tot ce ați introdus în fișierul dvs. robots.txt.

    De ce nu permiteți nimic?

    Obținerea motorului de căutare Google pentru a accesa cu crawlere cât mai multe informații de calitate pe site-ul dvs. web este o preocupare principală pentru majoritatea proprietarilor site-urilor web.

    Cu toate acestea, Google extinde doar o limitată accesează cu crawlere bugetul și crawl rate pe site-uri individuale. Rata de accesare cu crawlere este numărul solicitărilor Googlebot pe secundă pe site-ul dvs. în timpul evenimentului de accesare cu crawlere.

    Mai important este bugetul de accesare cu crawlere, care este numărul total de solicitări pe care Googlebot le va face să acceseze cu crawlere site-ul într-o singură sesiune. Google "își petrece" bugetul de accesare cu crawlere concentrându-se asupra unor zone ale site-ului dvs. care sunt foarte populare sau care s-au schimbat recent.

    Nu sunteți orbi față de aceste informații. Dacă vizitați Instrumentele Google pentru webmasteri, puteți vedea modul în care crawlerul manipulează site-ul dvs..

    După cum puteți vedea, crawler-ul păstrează activitatea pe site-ul dvs. destul de constantă în fiecare zi. Nu accesează cu crawlere toate site-urile, ci doar cele pe care le consideră cele mai importante.

    De ce să lăsați Googlebot să decidă ce este important pe site-ul dvs. atunci când puteți să utilizați fișierul robots.txt pentru a afla care sunt cele mai importante pagini? Acest lucru va împiedica Googlebot să piardă timp pe paginile cu valoare redusă de pe site-ul dvs..

    Optimizați bugetul dvs. de accesare cu crawlere

    Instrumentele Google pentru webmasteri vă permit, de asemenea, să verificați dacă Googlebot citește bine fișierul robots.txt și dacă există erori.

    Acest lucru vă ajută să vă asigurați că ați structurat corect fișierul robots.txt.

    Ce pagini ar trebui să excludeți de la Googlebot? Este bine ca site-ul dvs. SEO să nu accepte următoarele categorii de pagini.

    • Pagini duplicate (cum ar fi pagini prietenoase pentru imprimantă)
    • Vă mulțumim pentru paginile care urmează comenzile bazate pe formulare
    • Comenzi sau formulare de interogări de informații
    • Pagini de contact
    • Pagini de conectare
    • Lead magnet "vânzări" pagini

    Nu ignora fișierul Robots.txt

    Cea mai mare greseala pe care o au noii proprietari de site-uri web nu este nici macar sa se uite la fisierul robots.txt. Cea mai gravă situație ar putea fi faptul că fișierul robots.txt blochează, de fapt, site-ul dvs. sau zonele site-ului dvs. de la a fi accesat cu crawlere la toate.

    Asigurați-vă că examinați fișierul robots.txt și asigurați-vă că acesta este optimizat. În acest fel, Google și alte motoare de căutare importante "văd" toate lucrurile fabuloase pe care le oferiți lumii cu site-ul dvs. Web.