Ядро Joomla! основные понятия.

Файл robots.txt для Joomla

alex » 10 июн 2013, 19:58

У Joomal всех версий, вплоть до последней (3.x) есть такая особенность в файле robots.txt, о которой мало кто знает, но при этом она имеет ОЧЕНЬ БОЛЬШОЕ ЗНАЧЕНИЕ, особенно для тех, у кого сайт сделан для бизнеса, и его пытаются продвигать в поисковых системах.
Особенность состоит в том что по умолчанию в этом файле прописаны директивы, запрещающие индексацию поисковыми системами некоторых разделов сайта.
В том числе:
/images/
/media/
/components/
/modules/

Что это за файл такой robots.txt, который кладется в корень сайта, и особенно, что делают директивы Disallow и Allow хорошо объяснено в справке Яндекса.

Вот код файла robots.txt, например, из дистрибутива Joomla 2.5.11

Код: Выделить всё
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/


Как говорится, смотрим и не верим своим глазам! :shock:
Зачем разработчики Joomla так поступили? Думаю, здесь несколько причин.
Во-первых, индексация лишних страниц, картинок и т. п. поисковыми роботами, коих насчитываются десятки, — это лишняя нагрузка на сервер.
Ну и во-вторых, если вы хотите делать серьёзный проект на Joomla а не просто засорить интернет, то уж должны бы сами подкорректировать robots.txt
(Кстати, это неплохой тест для хозяев сайтов на Joomla, позволяющий оценить, насколько грамотные специалисты его продвигают. Если пройдя по адресу http://ваш-сайт/robots.txt вы увидите что 4 вышеприведенных раздела закрыты от индексации, особенно /images/ и /media/, то это повод очень серьёзно задуматься относительно профпригодности продвиженцев..)

Что это означает на практике для продвижения сайта, думаю, вы уже догадываетесь..
Благо ситуация легко исправляется простым удалением запрещающих директив или введением дополнительных директив Allow для подразделов, которые вы хотите чтобы индексировались поисковыми роботами.

Например, компонент магазина Virtuemart 1.xx хранит изображения товаров в каталоге по адресу
/components/com_virtuemart/shop_image/
А если, например, у вас установлен компонент структуирования контента K2, то он использует для хранения изображений директорию
/media/k2/
Ну и тому подобные истории сплошь и рядом с задействованием папок /modules/ и .т. п.
И все они по умолчанию закрыты от индексации.

Ну а вот 2 примера, как должен был бы выглядеть более-менее адекватный файл robots.txt для вышеуказанного случая (когда установлены Virtuemart и K2).

Пример 1.

Код: Выделить всё
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Allow: /components/com_virtuemart/shop_image/category
Allow: /components/com_virtuemart/shop_image/product
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Host: имя-сайта.ru

Здесь детализировано что в закрытой в целом для индексации директории /components/
следует индексировать указанные ниже две её поддиректории.

Ну или более простой (и мне более симпатичный)
Вариант 2.

Код: Выделить всё
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Host: имя-сайта.ru

Кстати, заметьте, что в этих вариантах нет и директивы Disallow: /installation/ — зачем она там нужна, когда после установки пользователю выдается предупреждение, что эту папку нужно удалить, иначе система отказывается работать. А некоторые, как я, например, вообще имеют свою сборку Joomla, и устанавливают её вручную без инсталлятора ))

Ну и имеет смысл последней добавить директиву
Host: имя-сайта.ru
или соответственно, с www
Host: www.имя-сайта.ru
чтобы железно склеить домен с www и без во избежание всяких казусов и лишней нагрузки на сайт.

Жизнь и так вещь сложная, и не нужно городить огород, если на 100% не понимаешь, что и зачем делаешь. Достаточно сказать, что Яндекс регулярно признается официально что их алгоритмы несовершенны и частенько происходят глюки. Поэтому нечего пытаться морочить голову поисковому роботу всякими мудреными директивами.

Некоторые ИБДшники Сео-специалисты могут накрутить и что-то типа такого ну-ну..
Код: Выделить всё
User-agent: *
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Allow: /itemlist/category/
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/     
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?
Disallow: /itemlist*
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=ru*
Disallow: /*format=*
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*
Disallow: /*=download*
Disallow: /*user/*
Disallow: /.html
Disallow: /404
Disallow: /index.php?
Disallow: /index.html
Disallow: /index.php
Disallow: /1-kulinariya?
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss
Disallow: /component/k2/*
Sitemap: http://ваш-сайт.ru/index.php?option=com_xmap&sitemap=1&view=xml

User-agent: Yandex
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Allow: /itemlist/category/
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/     
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?
Disallow: /itemlist*
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=ru*
Disallow: /*format=*
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*
Disallow: /*=download*
Disallow: /*user/*
Disallow: /.html
Disallow: /404
Disallow: /index.php?
Disallow: /index.html
Disallow: /index.php
Disallow: /1-kulinariya?
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss
Disallow: /component/k2/*
Sitemap: http://ваш-сайт.ru/index.php?option=com_xmap&sitemap=1&view=xml


Все это чревато тем, что во-первых: поисковик может банально заглючить и понизить сайт в выдаче за спам/переоптимизированность.
Во-вторых, даже если допустить что все прописано идеально (хотя вероятность такого расклада стремится к 0), все-равно с развитием сайта вы столкнетесь с тем что одна или несколько из этих мудреных директив заблокировала какой-то контент, на который вы так рассчитывали что он будет хорошо влиять на рейтинг сайта, а прошло столько месяцев и что-то не видно никакого эффекта..
alex
Администратор
 
Сообщения: 58
Зарегистрирован: 17 апр 2010, 00:45

Вернуться в Ядро Joomla!