Устранить дубли для сайта Joomla2.5

 

file_robots

 

В этой статье описаны основные правила  и приведены примеры составления  файла robots.txt. При своевременном применении файла robots.txt для сайта и его корректировки,  позволит в дальнейшем избежать проблем при индексации сайта ботами поисковых систем, таких как дубли страниц.

 

 

Символы директив:
* – любой набор символов
$ – конец строки
# – комментарий

Host:
Что такое Host? - это директива  является корректной только для робота Яндексаи Google.
Директива Host поясняет поисковому роботу какой сайт является основным, а какой зеркалом .
 Директива host пишется отдельной строкой и без  http:// и без закрывающего слеша /
User-agent: Yandex
Host: www.ваш сайт.ru
# пишете с www или без, вносите основной сайт.


  У Яндекса существует индексация изображений, так что на ваше усмотрение можете подкорректировать следующую строку:
Disallow: /images/
# удаляете, если желаете чтоб ваши изображения индексировались Яндексом
# или оставляете, для запрета индексации всех изображений.

Если у вас установлен компонент "карта сайта", то обязательно надо прописать в robots.txt  ссылку на Sitemap
Sitemap: http://ваш сайт.ru/ссылка карты сайта=xml
# посмотреть ссылку для поисковых роботов можно в компоненте "карта сайта", там будет их две - одна с поддержкой стилей CSS и она нужна для просмотра пользователям, а другая предназначена для ботов, вот ее и скопируйте и вставьте сюда.

Если вы используете у себя на сайте поддержку SEO,  то Joomla  автоматически создает два вида ссылок на ваши страницы, что есть не очень хорошо. Вот для того, чтоб боты не индексировали не seo ссылки прописываем следующее:

Disallow: /index.php?*
 или можно использовать следующее правило, для борьбы с дубликатами страниц
Disallow: /index2.php

Величина задержки в секундах перед индексированием страницы, необходимо для медленных серверов. Директива Crawl-delay позволяет указать индексирующему роботу минимальный интервал времени (в секундах) между запросами на индексирование страниц. Не все роботы поддерживают ее, стоит указывать для Яндекса.
Crawl-delay: n - вместо n указываем время в секундах
Примеры использования директивы Crawl-delay:

User-agent: Yandex
Crawl-delay: 3 # задает таймаут в 3 секунды.

Многие боты индексируют файлы PDF, что не не всегда нужно. Так вот, что бы запретить PDF файлы, то прописываем следующее:

Disallow: *.pdf$

В Joomla существуют страницы для печати, так вот их надо убрать - запрет индексации переменной, например, страниц для печати

Disallow: /name.php?action=print

Запрещаем индексацию новостных каналов

Disallow: /*rss.html
Disallow: /*atom.html

Запрет индексации динамических ссылок

Disallow: /*?sl*

Исключаем страницы "Отправить на e-mail"

Disallow: /index2.php?option=com_content&task=emailform

Запрещаем индексацию трекбеков

Disallow: /trackback

Для западных ботов:
Request-rate: 1/5
# загружать не более одной страницы за пять секунд

Visit-time: 0600-0845
# загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу

Правильный robots.txt для Joomla (скопируйте и вставьте к себе готовый файл robots.txt):
 
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /*?sl*
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /*rss.html
Disallow: /*atom.html
Crawl-delay: 5
Host: ваш сайт.ru
Sitemap: http://ссылка на карту сайта=xml

В директиве Host и Sitemap необходимо вставить адрес своего сайта.
Так же нужно будет проверить (после установки файла на сервер) robots.txt на работоспособность в Яндекс и Google вебмастере.

 Если чпу не включено то index.php закрывать нельзя.

Компоненты вы можете закрыть все
Disallow: /component/
но некоторые иногда нужно индексировать, например галерею или форум.

Страницы поиска я закрываю, ведь там только дубли страниц.
Disallow: /component/search/
Disallow: /component/mailto/
Disallow: /component/user/

Как дополнение, к данной теме, можете ознакомиться со следующими статьями:

Что такое redirect-301
Файл robots.txt для Joomla 2.5
robots.txt. Удаление дублей в Joomla 2.5
robots.txt Ошибки и рекомендации
Дубли страниц Joomla 2.5
Источники дублей Joomla
Плагин для удаления дублей Shnodoubles

Комментарии   

0 # AbelDVeverka 17.06.2016 20:48
Informative article, just what I needed.

Feel free to surf to my blog ::http://oplach kin.ru/
Ответить | Ответить с цитатой | Цитировать
0 # Cathryn 11.10.2014 00:03
Simply wish to say your article is as surprising.
The clearness to your publish is simply cool and that i
could think you are a professional on this subject.
Fine with your permission allow me to take hold of your RSS feed to keep updated with drawing close post.
Thanks a million and please carry on the enjoyable work.


Feel free to visit my weblog - homepage [Cathryn: http://babaksohrabi.com/wiki/index.php?title=%DA%A9%D8%A7%D8%B1%D8%A8%D8%B1:EdmundoChavarri]
Ответить | Ответить с цитатой | Цитировать
0 # buy real active 25.04.2014 01:04
Every weekend i used to pay a visit this website, for the reason that
i wish for enjoyment, for the reason that this this web
page conations truly fastidious funny material too.
Ответить | Ответить с цитатой | Цитировать
0 # Alex 04.04.2014 07:01
Подскажите как избавится от дублей
site.com/
site.com/ru
Ответить | Ответить с цитатой | Цитировать
+2 # Георгий 23.12.2013 11:11
# - Значок решетки это комментарий в данном файле, который не влияет ни на что, а только поясняет. И создается для удобства программирования.
А приведенный вами текст, из файла robotstxt. лучше не трогать.
Ответить | Ответить с цитатой | Цитировать
0 # Алексей 23.12.2013 04:47
Как понимаю все это можно и нужно удалить ?

# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html
Ответить | Ответить с цитатой | Цитировать

Добавить комментарий


Защитный код
Обновить