Устранить дубли для сайта Joomla2.5

 

file_robots

 

В этой статье описаны основные правила  и приведены примеры составления  файла robots.txt. При своевременном применении файла robots.txt для сайта и его корректировки,  позволит в дальнейшем избежать проблем при индексации сайта ботами поисковых систем, таких как дубли страниц.

 

 

Символы директив:
* – любой набор символов
$ – конец строки
# – комментарий

Host:
Что такое Host? - это директива  является корректной только для робота Яндексаи Google.
Директива Host поясняет поисковому роботу какой сайт является основным, а какой зеркалом .
 Директива host пишется отдельной строкой и без  http:// и без закрывающего слеша /
User-agent: Yandex
Host: www.ваш сайт.ru
# пишете с www или без, вносите основной сайт.


  У Яндекса существует индексация изображений, так что на ваше усмотрение можете подкорректировать следующую строку:
Disallow: /images/
# удаляете, если желаете чтоб ваши изображения индексировались Яндексом
# или оставляете, для запрета индексации всех изображений.

Если у вас установлен компонент "карта сайта", то обязательно надо прописать в robots.txt  ссылку на Sitemap
Sitemap: http://ваш сайт.ru/ссылка карты сайта=xml
# посмотреть ссылку для поисковых роботов можно в компоненте "карта сайта", там будет их две - одна с поддержкой стилей CSS и она нужна для просмотра пользователям, а другая предназначена для ботов, вот ее и скопируйте и вставьте сюда.

Если вы используете у себя на сайте поддержку SEO,  то Joomla  автоматически создает два вида ссылок на ваши страницы, что есть не очень хорошо. Вот для того, чтоб боты не индексировали не seo ссылки прописываем следующее:

Disallow: /index.php?*
 или можно использовать следующее правило, для борьбы с дубликатами страниц
Disallow: /index2.php

Величина задержки в секундах перед индексированием страницы, необходимо для медленных серверов. Директива Crawl-delay позволяет указать индексирующему роботу минимальный интервал времени (в секундах) между запросами на индексирование страниц. Не все роботы поддерживают ее, стоит указывать для Яндекса.
Crawl-delay: n - вместо n указываем время в секундах
Примеры использования директивы Crawl-delay:

User-agent: Yandex
Crawl-delay: 3 # задает таймаут в 3 секунды.

Многие боты индексируют файлы PDF, что не не всегда нужно. Так вот, что бы запретить PDF файлы, то прописываем следующее:

Disallow: *.pdf$

В Joomla существуют страницы для печати, так вот их надо убрать - запрет индексации переменной, например, страниц для печати

Disallow: /name.php?action=print

Запрещаем индексацию новостных каналов

Disallow: /*rss.html
Disallow: /*atom.html

Запрет индексации динамических ссылок

Disallow: /*?sl*

Исключаем страницы "Отправить на e-mail"

Disallow: /index2.php?option=com_content&task=emailform

Запрещаем индексацию трекбеков

Disallow: /trackback

Для западных ботов:
Request-rate: 1/5
# загружать не более одной страницы за пять секунд

Visit-time: 0600-0845
# загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу

Правильный robots.txt для Joomla (скопируйте и вставьте к себе готовый файл robots.txt):
 
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /*?sl*
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /*rss.html
Disallow: /*atom.html
Crawl-delay: 5
Host: ваш сайт.ru
Sitemap: http://ссылка на карту сайта=xml

В директиве Host и Sitemap необходимо вставить адрес своего сайта.
Так же нужно будет проверить (после установки файла на сервер) robots.txt на работоспособность в Яндекс и Google вебмастере.

 Если чпу не включено то index.php закрывать нельзя.

Компоненты вы можете закрыть все
Disallow: /component/
но некоторые иногда нужно индексировать, например галерею или форум.

Страницы поиска я закрываю, ведь там только дубли страниц.
Disallow: /component/search/
Disallow: /component/mailto/
Disallow: /component/user/

Как дополнение, к данной теме, можете ознакомиться со следующими статьями:

Что такое redirect-301
Файл robots.txt для Joomla 2.5
robots.txt. Удаление дублей в Joomla 2.5
robots.txt Ошибки и рекомендации
Дубли страниц Joomla 2.5
Источники дублей Joomla
Плагин для удаления дублей Shnodoubles