Правила написання robots.txt — управляємо індексацією сайту

Швидка навігація по сторінці:

Що таке robots.txt?
Правила вказівки User-agent
Правила вказівки disallow і allow
Вказуємо хост і карту сайту
Приклад robots.txt для WordPress

Сучасна реальність така, що в Рунеті жоден поважаючий себе сайт не може обходитися без файлу під назвою роботс.тхт — навіть якщо вам нічого забороняти від індексації (хоча практично на кожному сайті є технічні сторінки і дублюючий контент, що вимагають закрити від індексації), то як мінімум прописати директиву з www і без www для Яндекса однозначно варто — для цього і служать правила написання robots.txt, про яких піде мова нижче.

Зміст

Що таке robots.txt?

Свою історію файл з такою назвою бере з 1994 року, коли консорціум W3C вирішив ввести такий стандарт для того, щоб сайти могли постачати пошукові системи інструкціями щодо індексації.

Файл з такою назвою має бути збережений в кореневій директорії сайту, розміщення його в будь-яких інших папках не допускається.

Файл виконує наступні функції:

забороняє будь-які сторінки або групи сторінок до індексації

дозволяє будь-які сторінки або групи сторінок до індексації

вказує роботу Яндекса, яке дзеркало сайту є головним (з www або без www)

показує розташування файлу з картою сайту

Всі чотири пункти є вкрай важливими для пошукової оптимізації сайту. Заборона на індексацію дозволяє закрити від індексації сторінки, які містять дублюючий контент — наприклад, сторінки тегів, архівів, результати пошуку, сторінки з версіями для друку і так далі. Наявність дублюючого контенту (коли один і той же текст, нехай і в розмірі кількох пропозицій, присутні на двох і більше сторінках) — це мінус для сайту в ранжируванні пошуковиків, тому дублів повинно бути як можна менше.

Директива allow самостійного значення не має, так як за замовчуванням усі сторінки доступні для індексації. Вона працює у зв’язці з disallow — коли, наприклад, якась рубрика повністю закрита від пошуковиків, але ви хотіли б відкрити в ній ту чи окремо взятную сторінку.

Вказівка на головне дзеркало сайту також є одним з найважливіших елементів в оптимізації: пошуковики розглядають сайти www.вашсайт.ру і вашсайт.ру як два різних ресурсу, якщо ви їм прямо не вкажете інше. В результаті відбувається подвоєння вмісту — поява дублів, зменшення сили зовнішніх посилань (зовнішні посилання можуть ставитися як з www і без www) і в результаті це може призвести до більш низького ранжування в пошуковій видачі.

Для Google головне дзеркало прописується в інструментах Вебмастера (http://www.google.ru/webmasters/), а от для Яндекса дані інструкції можна прописати тільки у тому самому роботс.тхт.

Вказівка на xml-файл з картою сайту (наприклад — sitemap.xml) дозволяє пошуковикам виявити даний файл.

Правила вказівки User-agent

User-agent в даному випадку — це пошукова система. При написанні інструкцій необхідно вказати, чи будуть вони діяти на всі пошуковики (тоді проставляється знак зірочки — *) або ж вони розраховані на якийсь окремий пошуковик, наприклад, Яндекс або Google.

Для того, щоб задати User-agent із зазначенням на всіх роботів, напишіть у своєму файлі наступний рядок:

User-agent: *

Для Яндекса:

User-agent: Yandex

Для Гугла:

User-agent: GoogleBot

Правила вказівки disallow і allow

По-перше, слід зазначити, що файл robots.txt для його валідності обов’язково повинен містити хоча б одну директиву disallow. Тепер розглянемо застосування цих директив на конкретних прикладах.

За допомогою такого коду ви дозволяєте індексацію всіх сторінок сайту:

User-agent: *
Disallow:

А за допомогою такого коду, навпаки, всі сторінки будуть закриті:

User-agent: *
Disallow: /

Для заборони на індексацію конкретної директорії під назвою folder вкажіть:

User-agent: *
Disallow: /folder

Для заборони на індексацію конкретної директорії під назвою folder вкажіть:

User-agent: *
Disallow: /folder

Можна використовувати також зірочки для заміни довільного назви:

User-agent: *
Disallow: *.php

Важливо: зірочка замінює назву файлу цілком, тобто не можна вказати file*.php, можна тільки *.php (але будуть заборонені всі сторінки з розширенням .php, щоб цього уникнути — можете вказати конкретну адресу сторінки).

Директива allow, як було зазначено вище, використовується для створення виключень в disallow (інакше вона не має сенсу, так як сторінки за замовчуванням і так відкриті).

Наприклад, заборонимо до індексації сторінки в папці archive, але залишимо відкритою сторінку index.html з цієї директорії:

Allow: /archive/index.html
Disallow: /archive/

Вказуємо хост і карту сайту

Хост — це головне дзеркало сайту (тобто назва домену плюс www або назву домену без цієї приставки). Хост вказується тільки для робота Яндекса (при цьому обов’язково повинна бути хоча б одна команда disallow).

Для вказівки host robots.txt повинен містити таку запис:

User-agent: Yandex
Disallow:
Host: www.вашсайт.ру

Що стосується карти сайту, то в robots.txt sitemap вказується простим прописанием повного шляху до відповідного файлу з зазначенням доменного імені:

Sitemap: http://вашсайт.ру/sitemap.xml

Про те, як зробити карту сайту для WordPress, написано тут.

Приклад robots.txt для WordPress

Для wordpress інструкції необхідно вказувати таким чином, щоб закрити до індексації всі технічні директорії (wp-admin, wp-includes тощо), а також дублі сторінок, створювані тегами, файлами rss, коментарями, пошуком.

В якості прикладу robots.txt для wordpress можете взяти файл з нашого сайту:

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /search
Disallow: */trackback
Disallow: */feed/
Disallow: */feed
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: */page/*
Disallow: */comment
Disallow: */tag/*
Disallow: */attachment/*
Allow: /wp-content/uploads/

Host: www.runcms.org

User-agent: Googlebot
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /search
Disallow: */trackback
Disallow: */feed/
Disallow: */feed
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: */page/*
Disallow: */comment
Disallow: */tag/*
Disallow: */attachment/*
Allow: /wp-content/uploads/

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /search
Disallow: */trackback
Disallow: */feed/
Disallow: */feed
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: */page/*
Disallow: */comment
Disallow: */tag/*
Disallow: */attachment/*
Allow: /wp-content/uploads/

Sitemap: http://www.runcms.org/sitemap.xml

Скачати файл robots.txt з нашого сайту можна за цим посиланням.

Якщо за підсумками прочитання цієї статті у вас залишилися якісь питання- задавайте в коментарях!