Какие функции выполняет Amazonbot и стоит ли его присутствие на вашем сайте хотя бы израсходованного трафика? Пробуем ответить на эти и другие вопросы.
Не так давно сразу на нескольких моих проектах было зафиксировано прямо-таки избыточное количество ботов, в сигнатуре которых присутствовало название Amazonbot. Вроде бы видали мы всяко-разно, но здесь количество ботов, висевших единовременно на сайте превышало 200 штук. Причем если в одних случаях их интересовала одна конкретная локация (как правило, выдача поискового модуля по одному конкретному запросу), то в других боты висели на различных страницах.
Напряг именно сам факт такого устойчивого и длительного “висения”, ведь наплыв тех или иных ботов обычно длится не более суток с неким пиковым значением, после которого их количество на сайте уверенно снижается. С Amazonbot все оказалось иначе, поэтому я и решил разобраться с их назначением и понять пути решения вопроса.
Название бота не скрывает его принадлежность и говорит о том, что работает он в интересах платформы Amazon. Вот как объясняют назначение данного бота (вернее семейства ботов) его разработчики:
Amazonbot является поисковым роботом Amazon и используется для улучшения наших сервисов, например, помогает виртуальному ассистенту Alexa отвечать на вопросы наших покупателей. Amazonbot подчиняется стандартным правилам robots.txt
Как бы и ладно, но поведение подследственного представилось мне очень уж назойливым. Благо, идентифицировать данного бота несложно: в строке user-agent всегда присутствует подстрока Amazonbot. Например:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Если ваша CMS позволяет вывести список присутствующих на сайте ботов с IP-адресами и DNS-сигнатурами, полдела уже сделано. Вы сразу же определите кто есть who. Однако не стоит забывать про вредоносных ботов и агентов. Поэтому применяем стандартный метод:
host 54.163.136.244
проверяем DNS-сигнатуруhost 54-163-136-244.crawl.amazonbot.amazon
проверяем IP-адрес полученного поддоменаВ переводе на консольные команды Linux это будет выглядеть так:
host 54.163.136.244 244.136.163.54.in-addr.arpa domain name pointer 54-163-136-244.crawl.amazonbot.amazon host 54-163-136-244.crawl.amazonbot.amazon 54-163-136-244.crawl.amazonbot.amazon has address 54.163.136.244
Выборочные проверки показали, что действительно мы имеем дело с легитимными Amazon-ботами. Осталось только решить, что с ними делать.
Мне до сих пор непонятно, как 200 ботов, облепивших мой сайт, помогут безосовской Алексе правильно отвечать на вопросы его клиентов. Даже если это и так, мало кому понравится когда две сотни ботов висят на сайте сутками и даже неделями. Впрочем, может и дольше, поскольку терпение у меня лопнуло.
Любопытно, что Amazonbot заинтересовали не только интернет-магазины, но и обычные информационные сайты и блоги.
Поиск релевантной информации показал, что многие американские интернет-магазины отказываются от работы с Amazon из-за их расценок, не всегда честной в отношении бизнесов политики и покупательской аудитории крайне низкого качества. Кроме этого, деятельность Amazonbot’ов может оказаться весьма болезненной для сервера. Процитируем одного из американских хостеров:
We have already seen some cases where 10%+ of the servers’ compute capacity was used by the Amazonbot to collect webshop data.
Более 10% вычислительных возможностей сервера это и правда слишком много для бесплатной помощи Алексе, поэтому по согласованию с клиентами было принято решение о блокировке Amazonbot.
Прежде всего, мы отметили, что диапазоны IP-адресов слишком многочисленны для того, чтобы использовать именно их. Вариант отдавать 403 в .htaccess через
RewriteEngine on RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC] RewriteRule . - [R=403,L]
вообще показался не совсем правильным и чреватым на неожиданные последствия.
Наконец, вспомнили о том, что Amazonbot понимает две важные директивы robots.txt – user-agent и disallow. Так что мудрствовать лукаво я не стал и дописал в конец указанного robots.txt две простые строки:
User-agent: Amazonbot Disallow: /
Для того, чтобы покинуть сайт амазоновским ботам понадобилось около суток. По истечении данного срока количество единовременно присутствующих на сайте ботов стабилизировалось, вернувшись к прежним числам. Amazonbot среди них больше не наблюдается.
Но настоящего времени я никогда не практиковал блокировку ботов, поскольку ни один из них (возможно, даже какой-нибудь вредоносный) не отличался таким навязчивым поведением, как Amazonbot. Периодически их присутствие на сайте отмечалось, но ни о какой массовости речи даже не шло. Так что Alexa регулярно получала от моих проектов всю необходимую помощь.
Ситуацию изменили кейсы с проектами, которые оказались буквально облеплены ботами Amazon. Оптимизма не добавили и сообщения о возникающих вследствие этого серверных нагрузках. Правда удивило и то, что подобная навязчивость излечилась необычайно легко – простыми директивами в robots.txt
Не могу сколь-нибудь настойчиво рекомендовать блокировку Amazonbot’ов вне ситуации, в которую попали некоторые мои клиенты. Если данные поисковые роботы не видны на общем фоне, делать это может и не стоит. В случаях когда под 200 ботов буквально оккупируют ваш сайт, все же посоветую избавиться от них. Надеюсь, приведенное в данной статье решение поможет вам в этом.
© 2008 - 2024 Webmasters.BY Все права защищены
Когда 200 ботов не просто висят, а висят на одной той же странице — это не индексирование, а вредительство.
А у меня сегодня их не 200, а 1600, да каждый генерирует по 40–50 запросов в минуту, так, что сервер ощутимо тормозит и это, по сути, DoS-атака.
Попробовал Ваш рецепт, дай бог, чтобы помог.
Если речь об Amazonbot, то гарантированно поможет. Если же у вас на сайте пасутся боты вредоносные, то на robots.txt они внимания обращать не станут.
Новый комментарий