Швидка навігація по сторінці:
- Що таке robots.txt?
- Правила вказівки User-agent
- Правила вказівки disallow і allow
- Вказуємо хост і карту сайту
- Приклад robots.txt для WordPress
Сучасна реальність така, що в Рунеті жоден поважаючий себе сайт не може обходитися без файлу під назвою роботс.тхт — навіть якщо вам нічого забороняти від індексації (хоча практично на кожному сайті є технічні сторінки і дублюючий контент, що вимагають закрити від індексації), то як мінімум прописати директиву з www і без www для Яндекса однозначно варто — для цього і служать правила написання robots.txt, про яких піде мова нижче.
Що таке robots.txt?
Свою історію файл з такою назвою бере з 1994 року, коли консорціум W3C вирішив ввести такий стандарт для того, щоб сайти могли постачати пошукові системи інструкціями щодо індексації.
Файл з такою назвою має бути збережений в кореневій директорії сайту, розміщення його в будь-яких інших папках не допускається.
Файл виконує наступні функції:
Всі чотири пункти є вкрай важливими для пошукової оптимізації сайту. Заборона на індексацію дозволяє закрити від індексації сторінки, які містять дублюючий контент — наприклад, сторінки тегів, архівів, результати пошуку, сторінки з версіями для друку і так далі. Наявність дублюючого контенту (коли один і той же текст, нехай і в розмірі кількох пропозицій, присутні на двох і більше сторінках) — це мінус для сайту в ранжируванні пошуковиків, тому дублів повинно бути як можна менше.
Директива allow самостійного значення не має, так як за замовчуванням усі сторінки доступні для індексації. Вона працює у зв’язці з disallow — коли, наприклад, якась рубрика повністю закрита від пошуковиків, але ви хотіли б відкрити в ній ту чи окремо взятную сторінку.
Вказівка на головне дзеркало сайту також є одним з найважливіших елементів в оптимізації: пошуковики розглядають сайти www.вашсайт.ру і вашсайт.ру як два різних ресурсу, якщо ви їм прямо не вкажете інше. В результаті відбувається подвоєння вмісту — поява дублів, зменшення сили зовнішніх посилань (зовнішні посилання можуть ставитися як з www і без www) і в результаті це може призвести до більш низького ранжування в пошуковій видачі.
Для Google головне дзеркало прописується в інструментах Вебмастера (http://www.google.ru/webmasters/), а от для Яндекса дані інструкції можна прописати тільки у тому самому роботс.тхт.
Вказівка на xml-файл з картою сайту (наприклад — sitemap.xml) дозволяє пошуковикам виявити даний файл.
Правила вказівки User-agent
User-agent в даному випадку — це пошукова система. При написанні інструкцій необхідно вказати, чи будуть вони діяти на всі пошуковики (тоді проставляється знак зірочки — *) або ж вони розраховані на якийсь окремий пошуковик, наприклад, Яндекс або Google.
Для того, щоб задати User-agent із зазначенням на всіх роботів, напишіть у своєму файлі наступний рядок:
User-agent: *
Для Яндекса:
User-agent: Yandex
Для Гугла:
User-agent: GoogleBot
Правила вказівки disallow і allow
По-перше, слід зазначити, що файл robots.txt для його валідності обов’язково повинен містити хоча б одну директиву disallow. Тепер розглянемо застосування цих директив на конкретних прикладах.
За допомогою такого коду ви дозволяєте індексацію всіх сторінок сайту:
User-agent: *
Disallow:
А за допомогою такого коду, навпаки, всі сторінки будуть закриті:
User-agent: *
Disallow: /
Для заборони на індексацію конкретної директорії під назвою folder вкажіть:
User-agent: *
Disallow: /folder
Для заборони на індексацію конкретної директорії під назвою folder вкажіть:
User-agent: *
Disallow: /folder
Можна використовувати також зірочки для заміни довільного назви:
User-agent: *
Disallow: *.php
Важливо: зірочка замінює назву файлу цілком, тобто не можна вказати file*.php, можна тільки *.php (але будуть заборонені всі сторінки з розширенням .php, щоб цього уникнути — можете вказати конкретну адресу сторінки).
Директива allow, як було зазначено вище, використовується для створення виключень в disallow (інакше вона не має сенсу, так як сторінки за замовчуванням і так відкриті).
Наприклад, заборонимо до індексації сторінки в папці archive, але залишимо відкритою сторінку index.html з цієї директорії:
Allow: /archive/index.html
Disallow: /archive/
Вказуємо хост і карту сайту
Хост — це головне дзеркало сайту (тобто назва домену плюс www або назву домену без цієї приставки). Хост вказується тільки для робота Яндекса (при цьому обов’язково повинна бути хоча б одна команда disallow).
Для вказівки host robots.txt повинен містити таку запис:
User-agent: Yandex
Disallow:
Host: www.вашсайт.ру
Що стосується карти сайту, то в robots.txt sitemap вказується простим прописанием повного шляху до відповідного файлу з зазначенням доменного імені:
Sitemap: http://вашсайт.ру/sitemap.xml
Про те, як зробити карту сайту для WordPress, написано тут.
Приклад robots.txt для WordPress
Для wordpress інструкції необхідно вказувати таким чином, щоб закрити до індексації всі технічні директорії (wp-admin, wp-includes тощо), а також дублі сторінок, створювані тегами, файлами rss, коментарями, пошуком.
В якості прикладу robots.txt для wordpress можете взяти файл з нашого сайту:
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /search
Disallow: */trackback
Disallow: */feed/
Disallow: */feed
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: */page/*
Disallow: */comment
Disallow: */tag/*
Disallow: */attachment/*
Allow: /wp-content/uploads/
Host: www.runcms.org
User-agent: Googlebot
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /search
Disallow: */trackback
Disallow: */feed/
Disallow: */feed
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: */page/*
Disallow: */comment
Disallow: */tag/*
Disallow: */attachment/*
Allow: /wp-content/uploads/
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /search
Disallow: */trackback
Disallow: */feed/
Disallow: */feed
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: */page/*
Disallow: */comment
Disallow: */tag/*
Disallow: */attachment/*
Allow: /wp-content/uploads/
Sitemap: http://www.runcms.org/sitemap.xml
Скачати файл robots.txt з нашого сайту можна за цим посиланням.
Якщо за підсумками прочитання цієї статті у вас залишилися якісь питання- задавайте в коментарях!