• 2660
  • 0
  • Автор: --------------
  • Адаптировал: ----------
  • Уровень сложности исполнения: это делается простым копированием и нажиманием кнопки

Файл robots.txt для NG CMS
Определимся с понятием.

robots.txt - текстовый файл, находящийся в корне сайта (т.е. имеет путь ваш-сайт/robots.txt). Он дает рекомендации по ограничению для роботов поисковых систем доступа к папкам и файлам вашего сайта. Будем честны перед собой, есть огромная вероятность, что роботы этих правил не придерживаются, но все же в поиске запрещенное на сайте не выкладывают.

Каждая более или менее развитая cms - система управления контентом имеет достаточно развернутый файл robots.txt.

Посмотрев же на то, что предлагается в NGcms, настпает удивление. Там практически ничего нет.

Посмотрите сами:

Код:
User-agent: *
Disallow: /engine/
Disallow: /templates/
Давайте посмотрим в корень только что установленного вами сайта на этой cms. Там мы увидим, к примеру, такие папки -
Код:
/engine/ - папка системных файлов
/templates/ - папка содержит шаблоны вашего сайта
/readme/ - папка общей документации по системе.
/uploads/ - папка загрузки изображений и файлов.

и файлы -

changelog.txt - изменения в движке по версиям.
install.txt - руководство по установке системы.
license.html - лицензионное соглашение. После установки системы не нужно.
license.txt - лицензионное соглашение в текстовом формате.

Тут и выясняется, что работы то и данных для добавления непочатый край.

Во-первых удаляем лишнее из файловой системы: папку /readme/ и файлы указанные выше. При необходимости вы всегда сможете прочитать необходимую информацию из дистрибутива. Надеюсь, что дистрибутив вы сохранили у себя на компьютере.

Во-вторых добавляем дополнительные запрещающие строки строки, как необходимое дополнение, особенно после того, как еще ближе ознакомитесь с системой.

Disallow: /uploads/ - запрещаем доступ к папке загрузки изображений и прочего. Для чего нужны поисковой системе наши внутренние дела.
Allow: /plugin/gsmg/ - разрешаем доступ к данной папке, именно им строится карта нашего сайта
Disallow: /plugin/ - закрываем доступ к всем остальным плагинам

А зачем индексация страниц: регистрации, восстановления пароля, профилей пользователей, страницы поиска? Лишние неинформативные страницы и дубли, копии.

Disallow: /login/ - страница регистрации юзера сайта — закрываем доступ
Disallow: /logout/ - страница выхода пользователя с сайта — закрываем доступ
Disallow: /register/ - страница регистрации пользователя — закрываем доступ
Disallow: /activate/ - страница активации после регистрации пользователя — закрываем доступ
Disallow: /lostpassword/ - страница для восстановления забытого пароля — закрываем доступ.
Disallow: /profile.html - страница профиля юзера — закрываем доступ.
Disallow: /users/ - страницы пользователей сайта — закрываем доступ.

Далее закроем доступ к информации копии основного материала, опубликованного на страницах сайта, к страницам результатов поиска.

Disallow: /*print - страница материалов в печатной версии — закрываем доступ.
Disallow: /search/ - страница результатов поиска — закрываем доступ.

Да, стоит закрыть и архивные материалы сайта, как копии материала страниц категорий и основных страниц.

Disallow: /page/ - закрываем постаничное содержание главной страницы и в разделах
Disallow: */page/1$
Disallow: /*201* - закрываем доступ к файлам архивной информации статей по годам и месяцам.

Дополняем все служебной информацией по размещению карты сайта и основного зеркала (последее для Яндекса).

Sitemap: httр://ваш-домен.ru/plugin/gsmg/ - месторасположения карты сайта
Host: ваш-домен.ru - (без hhtp://)показываем Яндексу основное зеркало сайта (если основной домен
вы определили с www, то и записи в обоих строках делаем именно с www.ваш-домен.ru).
Теперь итоговый файл robots.txt уже примет следующий вид после всех проведенных манипуляций.

Код:
User-agent: *
Disallow: /engine/
Disallow: /templates/
Disallow: /uploads/
Allow: /plugin/gsmg/
Disallow: /plugin/
Disallow: /login/
Disallow: /logout/
Disallow: /register/
Disallow: /activate/
Disallow: /lostpassword/
Disallow: /profile.html
Disallow: /users/
Disallow: /*print
Disallow: /search/
Disallow: /page/
Disallow: */page/1$
Disallow: /*201*
Sitemap: httр://ваш-домен.ru/plugin/gsmg/
Host: ваш-домен.ru
Как видим, robots преобразился намного, разросся в размерах, дополнился новыми директивами, что должно способствовать лучшей индексации вашего сайта.

Также стоит учесть, что предложенный вид файла носит рекомендательный характер. У вас на хостинге может быть другой набор папок (вы что-то дополнительно устанавливали или размещали). Тут вам придется определяться самим, что закрывать от роботов, а что наоборот открыть.

Еще один момент. В данном примере примере файла robots мы закрыли от индекса постраничку сайта - page, как страницы содержащие дублированные копии текста (части) основных статей. Но, если подходить логически, то сделав это мы запретили роботу идти дальше по сайту, а значит закрыли от нахождения и ссылки на более раннии статьи. Это хорошо, что логика работы ботов поисковых систем немного отличается - они все равно пройдут по запрещенным местам и отсеют потом запрещенное. А если бы они этого не сделали? Если бы не пошли по запретным ссылкам? Вывод один - большая часть страниц не попала бы в индекс. Так что решайте сами - закрывать или нет page в роботсе.

P.S. Если используется NG CMS с модифицированным плагином Google SiteMap Generator (gsmg), создающий sitemap в корне сайта, то запись

Sitemap: httр://ваш-домен.ru/plugin/gsmg/
cтоит модифицировать, как и положено для карты сайта, в следующий вид:
Sitemap: httр://ваш-домен.ru/sitemap.xml
Последний вариант более предпочтительный и отвечает требованиям поисковых систем к картам сайтов. Ваш решать какой из вариантов плагина использовать. Главное точно прописать в файле robots местонахождение карты сайта.

Можешь почитать и вот эту статейку "Счетчик и ограничение символов в текстовом поле textarea"

mistakes

Это тоже интересно

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Ваше мнение

Каким софтом вы пользуетесь?
Результаты

Облако тегов

Anything in here will be replaced on browsers that support the canvas element