Як робиться з допомогою файлу robots.txt заборона індексації сторінок на сайті?
Добрий день!
Дана задача вирішується за допомогою команди Disallow.
Наведу конкретні приклади:
1. Якщо потрібно закрити конкретні сторінки (наприклад, адресу RSS стрічки):
User-agent: *
Disallow: /page1.html
Disallow: /posts/page2.html
2. Якщо потрібно закрити розділ сайту — на прикладі розділу posts закриємо саму сторінку сайт.ру/posts + усі сторінки типу сайт.ру/posts/page1.html, сайт.ру/posts/page2.html і т. д.:
User-agent: *
Disallow: /posts/
3. Якщо потрібно закрити всі сторінки або розділи (папки), в назві яких зустрічається слово ‘posts’:
User-agent: *
Disallow: posts
4. Якщо потрібно закрити динамічно генерирующиеся сторінки, які мають адреса сайт.ру/?page=xxx:
User-agent: *
Disallow: /*?page*
5. Якщо потрібно за допомогою robots txt заборонити індексацію сайту цілком (так, деколи і таке вимагається):
User-agent: *
Disallow: /
Також більш детально про файл robots txt можна почитати в моїй статті по вказаному посиланню.
В якості додаткової міри можна також використовувати мета-тег, якщо движок дозволяє його розмістити на окремих сторінках (для WordPress, зокрема, це робить плагін All in Seo Pack):
<meta name=”robots” content=”noindex”>
В цілому, заборона від індексації — дуже важлива річ в пошуковій оптимізації, так як більшість движків зараз створюють сторінки, на яких дублюється один і той же контент, і ці дублі дуже важливо закривати вищеописаними методами.