Правила написання robots.txt — управляємо індексацією сайту

Швидка навігація по сторінці:

  • Що таке robots.txt?
  • Правила вказівки User-agent
  • Правила вказівки disallow і allow
  • Вказуємо хост і карту сайту
  • Приклад robots.txt для WordPress

Сучасна реальність така, що в Рунеті жоден поважаючий себе сайт не може обходитися без файлу під назвою роботс.тхт — навіть якщо вам нічого забороняти від індексації (хоча практично на кожному сайті є технічні сторінки і дублюючий контент, що вимагають закрити від індексації), то як мінімум прописати директиву з www і без www для Яндекса однозначно варто — для цього і служать правила написання robots.txt, про яких піде мова нижче.

Правила написання robots.txt — управляємо індексацією сайту

Що таке robots.txt?

Свою історію файл з такою назвою бере з 1994 року, коли консорціум W3C вирішив ввести такий стандарт для того, щоб сайти могли постачати пошукові системи інструкціями щодо індексації.

Файл з такою назвою має бути збережений в кореневій директорії сайту, розміщення його в будь-яких інших папках не допускається.

Файл виконує наступні функції:

  • забороняє будь-які сторінки або групи сторінок до індексації
  • дозволяє будь-які сторінки або групи сторінок до індексації
  • вказує роботу Яндекса, яке дзеркало сайту є головним (з www або без www)
  • показує розташування файлу з картою сайту
  • Всі чотири пункти є вкрай важливими для пошукової оптимізації сайту. Заборона на індексацію дозволяє закрити від індексації сторінки, які містять дублюючий контент — наприклад, сторінки тегів, архівів, результати пошуку, сторінки з версіями для друку і так далі. Наявність дублюючого контенту (коли один і той же текст, нехай і в розмірі кількох пропозицій, присутні на двох і більше сторінках) — це мінус для сайту в ранжируванні пошуковиків, тому дублів повинно бути як можна менше.

    Директива allow самостійного значення не має, так як за замовчуванням усі сторінки доступні для індексації. Вона працює у зв’язці з disallow — коли, наприклад, якась рубрика повністю закрита від пошуковиків, але ви хотіли б відкрити в ній ту чи окремо взятную сторінку.

    Вказівка на головне дзеркало сайту також є одним з найважливіших елементів в оптимізації: пошуковики розглядають сайти www.вашсайт.ру і вашсайт.ру як два різних ресурсу, якщо ви їм прямо не вкажете інше. В результаті відбувається подвоєння вмісту — поява дублів, зменшення сили зовнішніх посилань (зовнішні посилання можуть ставитися як з www і без www) і в результаті це може призвести до більш низького ранжування в пошуковій видачі.

    Для Google головне дзеркало прописується в інструментах Вебмастера (http://www.google.ru/webmasters/), а от для Яндекса дані інструкції можна прописати тільки у тому самому роботс.тхт.

    Вказівка на xml-файл з картою сайту (наприклад — sitemap.xml) дозволяє пошуковикам виявити даний файл.

    Правила вказівки User-agent

    User-agent в даному випадку — це пошукова система. При написанні інструкцій необхідно вказати, чи будуть вони діяти на всі пошуковики (тоді проставляється знак зірочки — *) або ж вони розраховані на якийсь окремий пошуковик, наприклад, Яндекс або Google.

    Для того, щоб задати User-agent із зазначенням на всіх роботів, напишіть у своєму файлі наступний рядок:

    User-agent: *

    Для Яндекса:

    User-agent: Yandex

    Для Гугла:

    User-agent: GoogleBot

    Правила вказівки disallow і allow

    По-перше, слід зазначити, що файл robots.txt для його валідності обов’язково повинен містити хоча б одну директиву disallow. Тепер розглянемо застосування цих директив на конкретних прикладах.

    За допомогою такого коду ви дозволяєте індексацію всіх сторінок сайту:

    User-agent: *
    Disallow:

    А за допомогою такого коду, навпаки, всі сторінки будуть закриті:

    User-agent: *
    Disallow: /

    Для заборони на індексацію конкретної директорії під назвою folder вкажіть:

    User-agent: *
    Disallow: /folder

    Для заборони на індексацію конкретної директорії під назвою folder вкажіть:

    User-agent: *
    Disallow: /folder

    Можна використовувати також зірочки для заміни довільного назви:

    User-agent: *
    Disallow: *.php

    Важливо: зірочка замінює назву файлу цілком, тобто не можна вказати file*.php, можна тільки *.php (але будуть заборонені всі сторінки з розширенням .php, щоб цього уникнути — можете вказати конкретну адресу сторінки).

    Директива allow, як було зазначено вище, використовується для створення виключень в disallow (інакше вона не має сенсу, так як сторінки за замовчуванням і так відкриті).

    Наприклад, заборонимо до індексації сторінки в папці archive, але залишимо відкритою сторінку index.html з цієї директорії:

    Allow: /archive/index.html
    Disallow: /archive/

    Вказуємо хост і карту сайту

    Хост — це головне дзеркало сайту (тобто назва домену плюс www або назву домену без цієї приставки). Хост вказується тільки для робота Яндекса (при цьому обов’язково повинна бути хоча б одна команда disallow).

    Для вказівки host robots.txt повинен містити таку запис:

    User-agent: Yandex
    Disallow:
    Host: www.вашсайт.ру

    Що стосується карти сайту, то в robots.txt sitemap вказується простим прописанием повного шляху до відповідного файлу з зазначенням доменного імені:

    Sitemap: http://вашсайт.ру/sitemap.xml

    Про те, як зробити карту сайту для WordPress, написано тут.

    Приклад robots.txt для WordPress

    Для wordpress інструкції необхідно вказувати таким чином, щоб закрити до індексації всі технічні директорії (wp-admin, wp-includes тощо), а також дублі сторінок, створювані тегами, файлами rss, коментарями, пошуком.

    В якості прикладу robots.txt для wordpress можете взяти файл з нашого сайту:

    User-agent: Yandex
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /search
    Disallow: */trackback
    Disallow: */feed/
    Disallow: */feed
    Disallow: */comments/
    Disallow: /?feed=
    Disallow: /?s=
    Disallow: */page/*
    Disallow: */comment
    Disallow: */tag/*
    Disallow: */attachment/*
    Allow: /wp-content/uploads/

    Host: www.runcms.org

    User-agent: Googlebot
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /search
    Disallow: */trackback
    Disallow: */feed/
    Disallow: */feed
    Disallow: */comments/
    Disallow: /?feed=
    Disallow: /?s=
    Disallow: */page/*
    Disallow: */comment
    Disallow: */tag/*
    Disallow: */attachment/*
    Allow: /wp-content/uploads/

    User-agent: *
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /search
    Disallow: */trackback
    Disallow: */feed/
    Disallow: */feed
    Disallow: */comments/
    Disallow: /?feed=
    Disallow: /?s=
    Disallow: */page/*
    Disallow: */comment
    Disallow: */tag/*
    Disallow: */attachment/*
    Allow: /wp-content/uploads/

    Sitemap: http://www.runcms.org/sitemap.xml

    Скачати файл robots.txt з нашого сайту можна за цим посиланням.

    Якщо за підсумками прочитання цієї статті у вас залишилися якісь питання- задавайте в коментарях!

    Поділитися з друзями:
    Відповіді на питання