Amazonbot是什么蜘蛛？_Amazonbot_是什么爬虫？_怎么屏蔽Amazonbot

關於 Amazonbot

Amazonbot 是亞馬遜的網路爬蟲，用於改善我們的服務，例如使Alexa能夠回答更多客戶的問題。Amazonbot 遵循標準的 robots.txt 規則。

如何識別Amazonbot？

在使用者代理字串中，您會看到“Amazonbot”以及其他附加代理資訊。一個示例看起來像這樣：

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

如何控制Amazonbot在您的網站上爬取什麼？

Robots.txt：Amazonbot 尊重 robots.txt 中的 user-agent 和 Disallow 指令。在下面的示例中，Amazonbot 不會爬取位於 /do-not-crawl/ 或 /not-allowed 下的文件：

User-agent: Amazonbot # Amazon的使用者代理

Disallow: /do-not-crawl/ # 不允許爬取此目錄

User-agent: * # 任何機器人

Disallow: /not-allowed/ # 不允許爬取此目錄

AmazonBot 不支援 robots.txt 中的 crawl-delay 指令，也不支援 HTML 頁面上的 robots 元標記，如“nofollow”和“noindex”。

連結級 Rel 引數：Amazonbot 支援連結級的 rel=nofollow 指令。在您的 HTML 中包含這些，以阻止 Amazonbot 跟蹤和爬取您網站上的特定連結，格式如下：

<a href="signin.php" rel=nofollow>Sign in </a>

驗證Amazonbot
透過使用DNS查詢來驗證訪問您伺服器的爬蟲是否是官方的Amazonbot爬蟲，可以幫助您識別其他可能訪問您站點並聲稱是Amazonbot的機器人或惡意代理。

您可以使用命令列工具按照以下步驟驗證Amazonbot：

從伺服器日誌中找到訪問IP地址

使用host命令對IP地址執行反向DNS查詢

驗證檢索到的域名是crawl.amazonbot.amazon的子域名

使用host命令對檢索到的域名執行正向DNS查詢

驗證返回的IP地址與伺服器日誌中的原始IP地址相同

例如：

$ host 12.34.56.789

789.56.34.12.in-addr.arpa domain name pointer 12-34-56-789.crawl.amazonbot.amazon.

$ host 12-34-56-789.crawl.amazonbot.amazon
12-34-56-789.crawl.amazonbot.amazon has address 12.34.56.789

如果你覺得以上方法比較麻煩，可以直接透過爬蟲識別網站，輸入 Amazonbot 的 IP 地址，即可判斷是否是真正的 Amazonbot 爬蟲。

Amazonbot

補充糾錯