Як робиться з допомогою robots txt заборона індексації?

Як робиться з допомогою файлу robots.txt заборона індексації сторінок на сайті?

Добрий день!

Дана задача вирішується за допомогою команди Disallow.

Наведу конкретні приклади:

1. Якщо потрібно закрити конкретні сторінки (наприклад, адресу RSS стрічки):

User-agent: *
Disallow: /page1.html
Disallow: /posts/page2.html

2. Якщо потрібно закрити розділ сайту — на прикладі розділу posts закриємо саму сторінку сайт.ру/posts + усі сторінки типу сайт.ру/posts/page1.html, сайт.ру/posts/page2.html і т. д.:

User-agent: *
Disallow: /posts/

3. Якщо потрібно закрити всі сторінки або розділи (папки), в назві яких зустрічається слово ‘posts’:

User-agent: *
Disallow: posts

4. Якщо потрібно закрити динамічно генерирующиеся сторінки, які мають адреса сайт.ру/?page=xxx:

User-agent: *
Disallow: /*?page*

5. Якщо потрібно за допомогою robots txt заборонити індексацію сайту цілком (так, деколи і таке вимагається):

User-agent: *
Disallow: /

Також більш детально про файл robots txt можна почитати в моїй статті по вказаному посиланню.

В якості додаткової міри можна також використовувати мета-тег, якщо движок дозволяє його розмістити на окремих сторінках (для WordPress, зокрема, це робить плагін All in Seo Pack):

В цілому, заборона від індексації — дуже важлива річ в пошуковій оптимізації, так як більшість движків зараз створюють сторінки, на яких дублюється один і той же контент, і ці дублі дуже важливо закривати вищеописаними методами.