1. Приветствуем Вас на нашем закрытом форуме для складчиков сайта cmsheaven.org. Если Вы частный вебмастер, фрилансер, владелец малого или среднего бизнеса, представитель студии по разработке сайтов - будем рады видеть Вас в наших рядах экономных людей.
    Регистрация на форуме возможна только после вступления в складчину

Какие страницы блокировать в robot.txt?

Тема в разделе "Обсуждаем Joomla, шаблоны и расширения к ней", создана пользователем kosas, 8 июл 2015.

  1. kosas

    kosas Cкладчик

    Регистрация:
    25 фев 2015
    Сообщения:
    20
    Симпатии:
    9
    Всем привет.

    При настройке webmaster.yandex.ru столкнулся с такой дилеммой.

    В целом у меня 20 "живых" страниц на сайте, но система распознает как отдельные страницы поиск по тегу, список категорий, печатные формы страниц и прочее. В итоге, получается далеко за сотню.
    Не могу определиться что заблокировать в robot.txt и так, чтобы это не повлияло на SEO.
    По сути, содержание этих псевдо-страниц одинаковое. Не будут ли они дубликатами реальных?

    Вопрос. Оставить все или позакрывать страницы поиска по тегам и печатные формы?
    #1
  2. Dkautorr

    Dkautorr Опытный складчик

    Регистрация:
    11 окт 2014
    Сообщения:
    60
    Симпатии:
    31
    Будут-будут. Закрывать однозначно. Иначе все будет "соплями" залито. И печатные и pdf если есть и результаты поиска. И надеяться, что робот на закрывашку обратит внимание :rolleyes:.
    #2
    kosas нравится это.
  3. Виталий

    Виталий Weblargo Команда форума

    Регистрация:
    10 окт 2014
    Сообщения:
    964
    Симпатии:
    371
    Один пользователь с ником ELLE на Джумлафоруме очень хорошо постарался в этом вопросе, вот выкладываю его творение у нас, чтобы не потерять, так как вещь крайне важная
    Настройка индексации средствами файла robots.txt

    Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

    Обычно с помощью robots.txt запрещают индексацию одинаковых по своему содержанию (т.е. дублей) страниц вашего сайта, а также нежелательные страницы, например, это может быть раздел с копипастом или какие-либо технические страницы (например, страница входа для пользователей).

    Обязательно изучите:
    Анализ robots.txt - здесь вы сможете проверить свой файл, а также убедиться в том, правильно ли вы все закрыли или наоборот разрешили к индексации роботу Яндекса.
    [​IMG]
    То же самое вы можете проверить и для Google в своей панели для вебмастера.

    Как узнать - что закрывать, а что разрешать роботам?!
    Если ваш сайт уже проиндексирован, то все страницы вы сможете просмотреть в своих панелях для вебмастеров. Если вы не добавляли туда свой сайт, то можно воспользоваться специальными командами для поиска всех страниц, которые попали в индекс:
    в Яндексе: host:domen.ru | host:www.domen.ru
    в Google: site:domen.ru
    Для этого скопируйте кусок текста со страницы и вставьте в поисковую строку в кавычках, нажмите на "Расширенный поиск" и укажите адрес вашего сайта, далее вы можете увидеть все дубли если таковые имеются (проиндексированы)
    [​IMG]
    В Google можно проверить так - site:domen.ru "в кавычках укажите искомый кусок текста"
    *вместо domen.ru укажите адрес вашего сайта

    Далее по списку просто отслеживаете нужное и соответственно вносите изменения в robots.txt.

    Примеры.
    Внимание! Не рекомендуется копировать примеры, так как в каждом конкретном случае файл robots.txt может отличаться от приведенных ниже. В частности это может зависеть от ваших настроек, а так же от того какие дополнительные расширения для Joomla (напр. компоненты) вы используете.
    1. Robots.txt для сайтов Joomla + родной SEF. (при условии, что включен mod_rewrite и переименован файл .htaccess)
    User-agent: * #К какому роботу обращаемся (по умолчанию ко всем)
    Allow: /index.php?option=com_xmap&sitemap=1&view=xml #разрешает доступ к карте сайта
    Disallow: /administrator/ #Закрываем доступ к админке
    Disallow: /cache/ #Закрываем доступ к кеш
    Disallow: /components/ #Закрываем доступ к компонентам
    Disallow: /includes/ # #Не помню
    Disallow: /language/ # #Языки
    Disallow: /libraries/ # #Закрываем библиотеки
    Disallow: /logs/ # # #Закрываем логи
    Disallow: /media/ # # #Закрываем медиа
    Disallow: /modules/ # #Закрываем модули
    Disallow: /plugins/ # #Плагины
    Disallow: /templates/ # #Папка с шаблонами
    Disallow: /tmp/ # # #Не помню
    Disallow: /xmlrpc/ # # #Не помню
    Disallow: /*com_mailto #Форма отправки писем
    Disallow: /*pop= # #Всплывающие окна
    Disallow: /*lang=ru # #Не помню
    Disallow: /*format= # #Не помню
    Disallow: /*print= # #Ссылка вывода на печать
    Disallow: /*task=vote # #Голосования
    Disallow: /*=watermark #Идиотская ссылка на водяные знаки
    Disallow: /*=download # #Ссылки на скачивание
    Disallow: /*user/ # #Не помню
    Disallow: /404 # # #Закрываем 404 ошибку
    Disallow: /index.php?
    Disallow: /index.html
    Disallow: /*? # # #все ссылки которые содержат этот знак не индексируются !
    Disallow: /*% # # #все ссылки которые содержат этот знак не индексируются !
    Disallow: /*& # # #все ссылки которые содержат этот знак не индексируются !
    Disallow: /index2.php # #Закрываем дубли
    Disallow: /index.php # #Закрываем дубли
    Disallow: /*tag # # #Закрываем облака тегов
    Disallow: /*.pdf # # #Закрываем pdf файлы. По вашему усмотрению
    Disallow: /*.swf # # #Закрываем Flash. По вашему усмотрению
    Disallow: /*print=1 # #Закрываем ссылку на печать
    Disallow: /*=atom # #Закрывает RSS
    Disallow: /*=rss # # #Закрывает RSS
    Host: site.ru # # #Прописываем ваш сайт

    Sitemap: http://сайт/sitemap.xml ### укажите адрес своей карты сайта

    2. Robots.txt для сайтов Joomla + VirtueMart + SH404 (при условии, что включен mod_rewrite и переименован файл .htaccess, отсутствуют адреса с 'index.php' )
    User-agent: * # #К какому роботу обращаемся (по умолчанию ко всем)
    Allow: /sitemap-xml.html?sitemap=1 # #Разрешаем доступ к карте сайте
    Allow: /components/com_virtuemart/shop_image/category #разрешаем доступ к картинкам категорий
    Allow: /components/com_virtuemart/shop_image/product #разрешаем доступ к картинкам продуктов
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /xmlrpc/
    Disallow: /shop/ask/
    Disallow: /index.php?
    Disallow: /index2.php
    Disallow: /*keyword= #Поиск по ключевому слову на сайте
    Disallow: /*pop=0 #Косяк sh404
    Disallow: /*product-search #Результаты поиска
    Disallow: /*flypage= #Адреса страниц карточек из результатов поиска по сайту
    Disallow: /*cart #Корзина
    Disallow: /*feed #Также запрещается RSS и atom
    Disallow: /404
    Disallow: /*? #все ссылки которые содержат этот знак не индексируются !
    Disallow: /*% #запрещает индексацию кириллических url
    Crawl-delay: 3 #задает таймаут в 3 секунды
    Host: site.ru # # #Прописываем ваш сайт

    Sitemap: http://сайт/sitemap.xml #### укажите адрес своей карты сайта

    3. Robots.txt для JoomShopping
    User-agent: *
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /components/
    Аllow: /images/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /*user
    Disallow: /component
    Disallow: /*product
    Disallow: /*category
    Disallow: /*cart
    Disallow: /*search
    Disallow: /*wishlist
    Disallow: /*?tmpl
    Allow: /components/com_jshopping/files/img_products/
    Allow: /components/com_jshopping/files/img_categories/
    Host: domain.ru
    Sitemap: sitemap_url

    Строка -
    Disallow: /*% # Запрещает индексацию кириллических url

    Если вас донимают какие-либо активные, нежелательные боты, то вы можете запретить им индексацию своего сайта. Можно лично к такому обратиться в строке User-agent, а можно прописать условия для Яндекса и Google, - а всем остальным ниже пропишем
    Код:
    User-agent: *
    Disallow: /
    Search Engine: User-Agent
    AltaVista: Scooter
    Infoseek: Infoseek
    Hotbot: Slurp
    AOL: Slurp
    Excite: ArchitextSpider
    Google: Googlebot (поддерживает регексы)
    Goto: Slurp:
    Lycos: Lycos
    MSN: Slurp
    Netscape: Googlebot
    NorthernLight: Gulliver
    WebCrawler: ArchitextSpider
    Iwon: Slurp
    Fast: Fast
    DirectHit: Grabber
    Looksmart Web Pages: Slurp

    Yahoo Web Pages: по одной информации - Googlebot, а по другой - Yahoo! Slurp
    поддерживает * (любой набор символов), $ используется как знак конца URL

    Яндекс: Yandex
    Рамблер: StackRambler
    Вэбальта: Webalta
    Черепаха: идентификатор TurtleScanner/номер_версии, индекс для robots.txt - turtle
    Директива Host.
    С 9.11.2011г. главное зеркало с www или без можно выбрать в панели Яндекс.Вебмастер,- такой способ имеет больший приоритет, чем директива Host.

    Несколько полезных примеров:
    1. запретить индексировать адреса имеющие какое-либо регулярное выражение, например 'search'
    Disallow: /*search

    2. может возникнуть ситуация когда нужно закрыть какую-либо страницу, но разрешить индексировать вложенность,
    например запретить site.ru/blog , но не закрывать site.ru/blog/article/
    Disallow: /blog$

    3. разрешить индексировать документы в определенном разделе только с расширением .html
    Allow: /blog/*.html
    Disallow: /blog/

    3. запрет на индексацию pdf
    Disallow: /*.pdf

    4. для уменьшения нагрузки на сервер (для Яндекса, Google не учитывает) можно указать ботам временной интервал в секундах между запросами на загрузку страниц (от 1 до 10)
    Crawl-delay: 3

    для западных ботов можно использовать -
    Request-rate : 1/10
    ( интервал в 10 сек )

    Из часто задаваемых вопросов:

    1. Нужно ли закрывать ссылки от индексации, у которых на конце #bla_bla_bla
    Ответ: Нет. Ссылки с разными якорями являются одной страницей, т.е. site.ru/article и site.ru/article#bla_bla_bla не являются дублями, ПСы расценивают их как один и тот же документ.

    #3
    Ali, Инотон, Dkautorr и ещё 1-му нравится это.
  4. igorzub

    igorzub Cкладчик

    Регистрация:
    18 мар 2016
    Сообщения:
    6
    Симпатии:
    0
    огромное спасибо за нужную инфу
    #4