4134
- 0
- Автор: --------------
- Адаптировал: ----------
- Уровень сложности исполнения: это делается простым копированием и нажиманием кнопки
Файл robots.txt для NG CMS
Определимся с понятием.
robots.txt - текстовый файл, находящийся в корне сайта (т.е. имеет путь ваш-сайт/robots.txt). Он дает рекомендации по ограничению для роботов поисковых систем доступа к папкам и файлам вашего сайта. Будем честны перед собой, есть огромная вероятность, что роботы этих правил не придерживаются, но все же в поиске запрещенное на сайте не выкладывают.
Каждая более или менее развитая cms - система управления контентом имеет достаточно развернутый файл robots.txt.
Посмотрев же на то, что предлагается в NGcms, настпает удивление. Там практически ничего нет.
Посмотрите сами:
Код:
User-agent: *
Disallow: /engine/
Disallow: /templates/
Код:
/engine/ - папка системных файлов
/templates/ - папка содержит шаблоны вашего сайта
/readme/ - папка общей документации по системе.
/uploads/ - папка загрузки изображений и файлов.
и файлы -
changelog.txt - изменения в движке по версиям.
install.txt - руководство по установке системы.
license.html - лицензионное соглашение. После установки системы не нужно.
license.txt - лицензионное соглашение в текстовом формате.
Тут и выясняется, что работы то и данных для добавления непочатый край.
Во-первых удаляем лишнее из файловой системы: папку /readme/ и файлы указанные выше. При необходимости вы всегда сможете прочитать необходимую информацию из дистрибутива. Надеюсь, что дистрибутив вы сохранили у себя на компьютере.
Во-вторых добавляем дополнительные запрещающие строки строки, как необходимое дополнение, особенно после того, как еще ближе ознакомитесь с системой.
Disallow: /uploads/ - запрещаем доступ к папке загрузки изображений и прочего. Для чего нужны поисковой системе наши внутренние дела.
Allow: /plugin/gsmg/ - разрешаем доступ к данной папке, именно им строится карта нашего сайта
Disallow: /plugin/ - закрываем доступ к всем остальным плагинам
А зачем индексация страниц: регистрации, восстановления пароля, профилей пользователей, страницы поиска? Лишние неинформативные страницы и дубли, копии.
Disallow: /login/ - страница регистрации юзера сайта — закрываем доступ
Disallow: /logout/ - страница выхода пользователя с сайта — закрываем доступ
Disallow: /register/ - страница регистрации пользователя — закрываем доступ
Disallow: /activate/ - страница активации после регистрации пользователя — закрываем доступ
Disallow: /lostpassword/ - страница для восстановления забытого пароля — закрываем доступ.
Disallow: /profile.html - страница профиля юзера — закрываем доступ.
Disallow: /users/ - страницы пользователей сайта — закрываем доступ.
Далее закроем доступ к информации копии основного материала, опубликованного на страницах сайта, к страницам результатов поиска.
Disallow: /*print - страница материалов в печатной версии — закрываем доступ.
Disallow: /search/ - страница результатов поиска — закрываем доступ.
Да, стоит закрыть и архивные материалы сайта, как копии материала страниц категорий и основных страниц.
Disallow: /page/ - закрываем постаничное содержание главной страницы и в разделах
Disallow: */page/1$
Disallow: /*201* - закрываем доступ к файлам архивной информации статей по годам и месяцам.
Дополняем все служебной информацией по размещению карты сайта и основного зеркала (последее для Яндекса).
Sitemap: httр://ваш-домен.ru/plugin/gsmg/ - месторасположения карты сайта
Host: ваш-домен.ru - (без hhtp://)показываем Яндексу основное зеркало сайта (если основной домен
вы определили с www, то и записи в обоих строках делаем именно с www.ваш-домен.ru).
Теперь итоговый файл robots.txt уже примет следующий вид после всех проведенных манипуляций.
Код:
User-agent: *
Disallow: /engine/
Disallow: /templates/
Disallow: /uploads/
Allow: /plugin/gsmg/
Disallow: /plugin/
Disallow: /login/
Disallow: /logout/
Disallow: /register/
Disallow: /activate/
Disallow: /lostpassword/
Disallow: /profile.html
Disallow: /users/
Disallow: /*print
Disallow: /search/
Disallow: /page/
Disallow: */page/1$
Disallow: /*201*
Sitemap: httр://ваш-домен.ru/plugin/gsmg/
Host: ваш-домен.ru
Также стоит учесть, что предложенный вид файла носит рекомендательный характер. У вас на хостинге может быть другой набор папок (вы что-то дополнительно устанавливали или размещали). Тут вам придется определяться самим, что закрывать от роботов, а что наоборот открыть.
Еще один момент. В данном примере примере файла robots мы закрыли от индекса постраничку сайта - page, как страницы содержащие дублированные копии текста (части) основных статей. Но, если подходить логически, то сделав это мы запретили роботу идти дальше по сайту, а значит закрыли от нахождения и ссылки на более раннии статьи. Это хорошо, что логика работы ботов поисковых систем немного отличается - они все равно пройдут по запрещенным местам и отсеют потом запрещенное. А если бы они этого не сделали? Если бы не пошли по запретным ссылкам? Вывод один - большая часть страниц не попала бы в индекс. Так что решайте сами - закрывать или нет page в роботсе.
P.S. Если используется NG CMS с модифицированным плагином Google SiteMap Generator (gsmg), создающий sitemap в корне сайта, то запись
Sitemap: httр://ваш-домен.ru/plugin/gsmg/
cтоит модифицировать, как и положено для карты сайта, в следующий вид:
Sitemap: httр://ваш-домен.ru/sitemap.xml
Последний вариант более предпочтительный и отвечает требованиям поисковых систем к картам сайтов. Ваш решать какой из вариантов плагина использовать. Главное точно прописать в файле robots местонахождение карты сайта.
Можешь почитать и вот эту статейку "Вывод иконки "новое""
Это тоже интересно
- 17.03.13Хак- Для тех у кого тёмный фон.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.