Добро пожаловать на портал вебмастеров WebmastersBY
SEO и раскрутка сайта

Amazonbot

Какие функции выполняет Amazonbot и стоит ли его присутствие на вашем сайте хотя бы израсходованного трафика? Пробуем ответить на эти и другие вопросы.

Amazonbot

Не так давно сразу на нескольких моих проектах было зафиксировано прямо-таки избыточное количество ботов, в сигнатуре которых присутствовало название Amazonbot. Вроде бы видали мы всяко-разно, но здесь количество ботов, висевших единовременно на сайте превышало 200 штук. Причем если в одних случаях их интересовала одна конкретная локация (как правило, выдача поискового модуля по одному конкретному запросу), то в других боты висели на различных страницах.

Напряг именно сам факт такого устойчивого и длительного “висения”, ведь наплыв тех или иных ботов обычно длится не более суток с неким пиковым значением, после которого их количество на сайте уверенно снижается. С Amazonbot все оказалось иначе, поэтому я и решил разобраться с их назначением и понять пути решения вопроса.

Amazonbot: что за бот такой?

Название бота не скрывает его принадлежность и говорит о том, что работает он в интересах платформы Amazon. Вот как объясняют назначение данного бота (вернее семейства ботов) его разработчики:

Amazonbot является поисковым роботом Amazon и используется для улучшения наших сервисов, например, помогает виртуальному ассистенту Alexa отвечать на вопросы наших покупателей. Amazonbot подчиняется стандартным правилам robots.txt

Как бы и ладно, но поведение подследственного представилось мне очень уж назойливым. Благо, идентифицировать данного бота несложно: в строке user-agent всегда присутствует подстрока Amazonbot. Например:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Как можно верифицировать Amazonbot?

Если ваша CMS позволяет вывести список присутствующих на сайте ботов с IP-адресами и DNS-сигнатурами, полдела уже сделано. Вы сразу же определите кто есть who. Однако не стоит забывать про вредоносных ботов и агентов. Поэтому применяем стандартный метод:

  1. Фиксируем IP-адрес бота (например, 54.163.136.244)
  2. Командой host 54.163.136.244 проверяем DNS-сигнатуру
  3. Убеждаемся в том, что полученное доменное имя является поддоменом crawl.amazonbot.amazon (получаем легитимный поддомен 54-163-136-244.crawl.amazonbot.amazon)
  4. Командой host 54-163-136-244.crawl.amazonbot.amazon проверяем IP-адрес полученного поддомена
  5. Убеждаемся в том, что получен исходный адрес 54.163.136.244

В переводе на консольные команды Linux это будет выглядеть так:

host 54.163.136.244
244.136.163.54.in-addr.arpa domain name pointer 54-163-136-244.crawl.amazonbot.amazon

host 54-163-136-244.crawl.amazonbot.amazon
54-163-136-244.crawl.amazonbot.amazon has address 54.163.136.244

Выборочные проверки показали, что действительно мы имеем дело с легитимными Amazon-ботами. Осталось только решить, что с ними делать.

Как заблокировать Amazonbot

Мне до сих пор непонятно, как 200 ботов, облепивших мой сайт, помогут безосовской Алексе правильно отвечать на вопросы его клиентов. Даже если это и так, мало кому понравится когда две сотни ботов висят на сайте сутками и даже неделями. Впрочем, может и дольше, поскольку терпение у меня лопнуло.

Любопытно, что Amazonbot заинтересовали не только интернет-магазины, но и обычные информационные сайты и блоги.

Поиск релевантной информации показал, что многие американские интернет-магазины отказываются от работы с Amazon из-за их расценок, не всегда честной в отношении бизнесов политики и покупательской аудитории крайне низкого качества. Кроме этого, деятельность Amazonbot’ов может оказаться весьма болезненной для сервера. Процитируем одного из американских хостеров:

We have already seen some cases where 10%+ of the servers’ compute capacity was used by the Amazonbot to collect webshop data.

Более 10% вычислительных возможностей сервера это и правда слишком много для бесплатной помощи Алексе, поэтому по согласованию с клиентами было принято решение о блокировке Amazonbot.

Прежде всего, мы отметили, что диапазоны IP-адресов слишком многочисленны для того, чтобы использовать именно их. Вариант отдавать 403 в .htaccess через

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC]
RewriteRule . - [R=403,L]

вообще показался не совсем правильным и чреватым на неожиданные последствия.

Наконец, вспомнили о том, что Amazonbot понимает две важные директивы robots.txt – user-agent и disallow. Так что мудрствовать лукаво я не стал и дописал в конец указанного robots.txt две простые строки:

User-agent: Amazonbot
Disallow: /

Для того, чтобы покинуть сайт амазоновским ботам понадобилось около суток. По истечении данного срока количество единовременно присутствующих на сайте ботов стабилизировалось, вернувшись к прежним числам. Amazonbot среди них больше не наблюдается.

Заключение

Но настоящего времени я никогда не практиковал блокировку ботов, поскольку ни один из них (возможно, даже какой-нибудь вредоносный) не отличался таким навязчивым поведением, как Amazonbot. Периодически их присутствие на сайте отмечалось, но ни о какой массовости речи даже не шло. Так что Alexa регулярно получала от моих проектов всю необходимую помощь.

Ситуацию изменили кейсы с проектами, которые оказались буквально облеплены ботами Amazon. Оптимизма не добавили и сообщения о возникающих вследствие этого серверных нагрузках. Правда удивило и то, что подобная навязчивость излечилась необычайно легко – простыми директивами в robots.txt

Не могу сколь-нибудь настойчиво рекомендовать блокировку Amazonbot’ов вне ситуации, в которую попали некоторые мои клиенты. Если данные поисковые роботы не видны на общем фоне, делать это может и не стоит. В случаях когда под 200 ботов буквально оккупируют ваш сайт, все же посоветую избавиться от них. Надеюсь, приведенное в данной статье решение поможет вам в этом.

Комментарии 0

Новый комментарий

Имя:
Для редактирования комментария осталось 10 минут
Комментарии отсутствуют