Semalt: Како да го блокирате роботите на Дародр.txt

Датотеката Robots.txt е типична текстуална датотека што содржи упатства за тоа како веб-роботите или ботовите треба да лазат на некоја страница. Нивната примена е евидентна во ботовите на пребарувачот кои се вообичаени на бројни оптимизирани веб-страници. Како дел од протоколот за исклучување на роботи (REP), датотеката robots.txt претставува суштински аспект на индексирање на содржината на веб-страницата, како и овозможување на серверот соодветно да ги автентицира барањата на корисниците.

Iaулија Вашнева, постар менаџер за успех на клиент во Сембург , објаснува дека поврзувањето е аспект на оптимизација на пребарувачот (СЕО), што подразбира стекнување сообраќај од други домени во рамките на вашата лажат. За линковите „следете“ за пренесување сок од врската, неопходно е да вклучите датотека robots.txt на вашиот веб-простор за хостирање за да дејствува како инструктор за тоа како серверот комуницира со вашата страница. Од оваа архива, упатствата се присутни со тоа што се дозволува или не дозволува како се однесуваат некои специфични агенти на корисници.

Основен формат на датотеката robots.txt

Датотеката robots.txt содржи две основни линии:

Кориснички агент: [име на корисник-агент]

Не дозволувај: [Низата на URL-то да не биде запишана]

Комплетна датотека robots.txt треба да ги содржи овие две реда. Сепак, некои од нив можат да содржат повеќе линии на кориснички агенти и директиви. Овие команди може да содржат аспекти како што се дозволи, не дозволува или одложувања. Обично, постои пауза за линија која го одделува секој сет на инструкции. Секоја од инструкциите што дозволува или забранува се одделува со оваа пауза на линијата, особено за роботите.txt со повеќе линии.

Примери

На пример, датотеката robots.txt може да содржи кодови како:

Корисник-агент: darodar

Не дозволувај: / додаток

Не дозволувај: / API

Не дозволувај: / _коментари

Во овој случај, ова е датотека блок robots.txt што го ограничува веб-роботот на Дародер од пристап до вашата веб-страница. Во горенаведената синтакса, кодот блокира аспекти на веб-страницата, како додатоци, API и делот за коментари. Од ова знаење, можно е да се постигнат бројни придобивки од ефикасно извршување на текстуалната датотека на роботот. Датотеките Robots.txt можат да извршуваат бројни функции. На пример, тие можат да бидат подготвени:

1. Дозволете ги сите содржини на веб-роботи на веб-страница. На пример;

Кориснички агент: *

Не дозволувај:

Во овој случај, до целата содржина на корисникот може да се пристапи од кој било веб-пребарувач за кој се бара да дојде до веб-страница.

2. Блокирајте одредена веб-содржина од одредена папка. На пример;

Кориснички агент: Googlebot

Не дозволувајте: / пример-потпапка /

Оваа синтакса со име на кориснички агент Googlebot му припаѓа на Google. Го ограничува ботот да пристапува до која било веб-страница во низата www.ourexample.com/example-subfolder/.

3. Блокирајте специфична веб-пребарувач од одредена веб-страница. На пример;

Корисник-агент: Бингбобот

Не дозволувајте: /example-subfolder/blocked-page.html

Корисничкиот агент Бинг бот припаѓа на веб-роботите на Бинг. Овој вид на датотека robots.txt го ограничува роботот на веб-страницата во Бинг да пристапува до одредена страница со низата www.ourexample.com/example-subfolder/blocked-page.

Важна информација

  • Не секој корисник ја користи вашата датотека robts.txt. Некои корисници може да решат да го игнорираат. Повеќето од ваквите веб-роботи вклучуваат тројанци и малициозен софтвер.
  • За датотеката Robots.txt да биде видлива, таа треба да биде достапна во директориумот за веб-страници со највисоко ниво.
  • Знаците „роботи.текст“ се чувствителни на случајот. Како резултат, не треба да ги менувате на кој било начин, вклучително и капитализација на некои аспекти.
  • "/Robots.txt" е јавен домен. Секој може да може да ги најде овие информации кога ќе ги додаде во содржината на која било URL. Не треба да индексирате основни детали или страници за кои сакате да останат приватни.