Хаки и Скрипты Next Generation CMS

Файл robots.txt для NG CMS

irbees2008 irbees2008 Опубликовано - 3 - мая Разное
4032 - 0
  • Автор: --------------
  • Адаптировал: ----------
  • Уровень сложности исполнения: это делается простым копированием и нажиманием кнопки

Файл robots.txt для NG CMS
Определимся с понятием.

robots.txt - текстовый файл, находящийся в корне сайта (т.е. имеет путь ваш-сайт/robots.txt). Он дает рекомендации по ограничению для роботов поисковых систем доступа к папкам и файлам вашего сайта. Будем честны перед собой, есть огромная вероятность, что роботы этих правил не придерживаются, но все же в поиске запрещенное на сайте не выкладывают.

Каждая более или менее развитая cms - система управления контентом имеет достаточно развернутый файл robots.txt.

Посмотрев же на то, что предлагается в NGcms, настпает удивление. Там практически ничего нет.

Посмотрите сами:

Код:
User-agent: *
Disallow: /engine/
Disallow: /templates/
Давайте посмотрим в корень только что установленного вами сайта на этой cms. Там мы увидим, к примеру, такие папки -
Код:
/engine/ - папка системных файлов
/templates/ - папка содержит шаблоны вашего сайта
/readme/ - папка общей документации по системе.
/uploads/ - папка загрузки изображений и файлов.

и файлы -

changelog.txt - изменения в движке по версиям.
install.txt - руководство по установке системы.
license.html - лицензионное соглашение. После установки системы не нужно.
license.txt - лицензионное соглашение в текстовом формате.

Тут и выясняется, что работы то и данных для добавления непочатый край.

Во-первых удаляем лишнее из файловой системы: папку /readme/ и файлы указанные выше. При необходимости вы всегда сможете прочитать необходимую информацию из дистрибутива. Надеюсь, что дистрибутив вы сохранили у себя на компьютере.

Во-вторых добавляем дополнительные запрещающие строки строки, как необходимое дополнение, особенно после того, как еще ближе ознакомитесь с системой.

Disallow: /uploads/ - запрещаем доступ к папке загрузки изображений и прочего. Для чего нужны поисковой системе наши внутренние дела.
Allow: /plugin/gsmg/ - разрешаем доступ к данной папке, именно им строится карта нашего сайта
Disallow: /plugin/ - закрываем доступ к всем остальным плагинам

А зачем индексация страниц: регистрации, восстановления пароля, профилей пользователей, страницы поиска? Лишние неинформативные страницы и дубли, копии.

Disallow: /login/ - страница регистрации юзера сайта — закрываем доступ
Disallow: /logout/ - страница выхода пользователя с сайта — закрываем доступ
Disallow: /register/ - страница регистрации пользователя — закрываем доступ
Disallow: /activate/ - страница активации после регистрации пользователя — закрываем доступ
Disallow: /lostpassword/ - страница для восстановления забытого пароля — закрываем доступ.
Disallow: /profile.html - страница профиля юзера — закрываем доступ.
Disallow: /users/ - страницы пользователей сайта — закрываем доступ.

Далее закроем доступ к информации копии основного материала, опубликованного на страницах сайта, к страницам результатов поиска.

Disallow: /*print - страница материалов в печатной версии — закрываем доступ.
Disallow: /search/ - страница результатов поиска — закрываем доступ.

Да, стоит закрыть и архивные материалы сайта, как копии материала страниц категорий и основных страниц.

Disallow: /page/ - закрываем постаничное содержание главной страницы и в разделах
Disallow: */page/1$
Disallow: /*201* - закрываем доступ к файлам архивной информации статей по годам и месяцам.

Дополняем все служебной информацией по размещению карты сайта и основного зеркала (последее для Яндекса).

Sitemap: httр://ваш-домен.ru/plugin/gsmg/ - месторасположения карты сайта
Host: ваш-домен.ru - (без hhtp://)показываем Яндексу основное зеркало сайта (если основной домен
вы определили с www, то и записи в обоих строках делаем именно с www.ваш-домен.ru).
Теперь итоговый файл robots.txt уже примет следующий вид после всех проведенных манипуляций.

Код:
User-agent: *
Disallow: /engine/
Disallow: /templates/
Disallow: /uploads/
Allow: /plugin/gsmg/
Disallow: /plugin/
Disallow: /login/
Disallow: /logout/
Disallow: /register/
Disallow: /activate/
Disallow: /lostpassword/
Disallow: /profile.html
Disallow: /users/
Disallow: /*print
Disallow: /search/
Disallow: /page/
Disallow: */page/1$
Disallow: /*201*
Sitemap: httр://ваш-домен.ru/plugin/gsmg/
Host: ваш-домен.ru
Как видим, robots преобразился намного, разросся в размерах, дополнился новыми директивами, что должно способствовать лучшей индексации вашего сайта.

Также стоит учесть, что предложенный вид файла носит рекомендательный характер. У вас на хостинге может быть другой набор папок (вы что-то дополнительно устанавливали или размещали). Тут вам придется определяться самим, что закрывать от роботов, а что наоборот открыть.

Еще один момент. В данном примере примере файла robots мы закрыли от индекса постраничку сайта - page, как страницы содержащие дублированные копии текста (части) основных статей. Но, если подходить логически, то сделав это мы запретили роботу идти дальше по сайту, а значит закрыли от нахождения и ссылки на более раннии статьи. Это хорошо, что логика работы ботов поисковых систем немного отличается - они все равно пройдут по запрещенным местам и отсеют потом запрещенное. А если бы они этого не сделали? Если бы не пошли по запретным ссылкам? Вывод один - большая часть страниц не попала бы в индекс. Так что решайте сами - закрывать или нет page в роботсе.

P.S. Если используется NG CMS с модифицированным плагином Google SiteMap Generator (gsmg), создающий sitemap в корне сайта, то запись

Sitemap: httр://ваш-домен.ru/plugin/gsmg/
cтоит модифицировать, как и положено для карты сайта, в следующий вид:
Sitemap: httр://ваш-домен.ru/sitemap.xml
Последний вариант более предпочтительный и отвечает требованиям поисковых систем к картам сайтов. Ваш решать какой из вариантов плагина использовать. Главное точно прописать в файле robots местонахождение карты сайта.

Можешь почитать и вот эту статейку "HTML caption"

Опрос

Ваше мнение

TWIG -что это?
Результаты

Последние комментарии

Теги

Anything in here will be replaced on browsers that support the canvas element

Статистика

  • Caйту: 4423 дня
  • Новостей: 566
  • Комменты: 257
  • Зарегистрированно : 665
  • Онлайн всего: [10]
  • Гости: [9]
  • Поисковики: [1] Google
  • Были сегодня : [3] Georg83, Google, Яндекс
  • SQL запросов: 29
  • Генерация страницы: 0.303сек
  • Потребление памяти: 5.170 Mb 
  •   Яндекс.Метрика