關於 Amazonbot
Amazonbot 是亞馬遜的網路爬蟲,用於改善我們的服務,例如使Alexa能夠回答更多客戶的問題。Amazonbot 遵循標準的 robots.txt 規則。
如何識別Amazonbot?
在使用者代理字串中,您會看到“Amazonbot”以及其他附加代理資訊。一個示例看起來像這樣:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
如何控制Amazonbot在您的網站上爬取什麼?
Robots.txt:Amazonbot 尊重 robots.txt 中的 user-agent 和 Disallow 指令。在下面的示例中,Amazonbot 不會爬取位於 /do-not-crawl/ 或 /not-allowed 下的文件:
User-agent: Amazonbot # Amazon的使用者代理
Disallow: /do-not-crawl/ # 不允許爬取此目錄
User-agent: * # 任何機器人
Disallow: /not-allowed/ # 不允許爬取此目錄
AmazonBot 不支援 robots.txt 中的 crawl-delay 指令,也不支援 HTML 頁面上的 robots 元標記,如“nofollow”和“noindex”。
連結級 Rel 引數:Amazonbot 支援連結級的 rel=nofollow 指令。在您的 HTML 中包含這些,以阻止 Amazonbot 跟蹤和爬取您網站上的特定連結,格式如下:
<a href="signin.php" rel=nofollow>Sign in </a>
驗證Amazonbot透過使用DNS查詢來驗證訪問您伺服器的爬蟲是否是官方的Amazonbot爬蟲,可以幫助您識別其他可能訪問您站點並聲稱是Amazonbot的機器人或惡意代理。
您可以使用命令列工具按照以下步驟驗證Amazonbot:
從伺服器日誌中找到訪問IP地址
使用host命令對IP地址執行反向DNS查詢
驗證檢索到的域名是crawl.amazonbot.amazon的子域名
使用host命令對檢索到的域名執行正向DNS查詢
驗證返回的IP地址與伺服器日誌中的原始IP地址相同
例如:
$ host 12.34.56.789
789.56.34.12.in-addr.arpa domain name pointer 12-34-56-789.crawl.amazonbot.amazon.
$ host 12-34-56-789.crawl.amazonbot.amazon
12-34-56-789.crawl.amazonbot.amazon has address 12.34.56.789
如果你覺得以上方法比較麻煩,可以直接透過爬蟲識別網站,輸入 Amazonbot 的 IP 地址,即可判斷是否是真正的 Amazonbot 爬蟲。