Amazonbot

關於 Amazonbot

Amazonbot 是亞馬遜的網路爬蟲,用於改善我們的服務,例如使Alexa能夠回答更多客戶的問題。Amazonbot 遵循標準的 robots.txt 規則。

如何識別Amazonbot?

在使用者代理字串中,您會看到“Amazonbot”以及其他附加代理資訊。一個示例看起來像這樣:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

如何控制Amazonbot在您的網站上爬取什麼?

Robots.txt:Amazonbot 尊重 robots.txt 中的 user-agent 和 Disallow 指令。在下面的示例中,Amazonbot 不會爬取位於 /do-not-crawl/ 或 /not-allowed 下的文件:

User-agent: Amazonbot               # Amazon的使用者代理

Disallow: /do-not-crawl/            # 不允許爬取此目錄

User-agent: *                # 任何機器人

Disallow: /not-allowed/      # 不允許爬取此目錄

AmazonBot 不支援 robots.txt 中的 crawl-delay 指令,也不支援 HTML 頁面上的 robots 元標記,如“nofollow”和“noindex”。

連結級 Rel 引數:Amazonbot 支援連結級的 rel=nofollow 指令。在您的 HTML 中包含這些,以阻止 Amazonbot 跟蹤和爬取您網站上的特定連結,格式如下:

<a href="signin.php" rel=nofollow>Sign in </a>
驗證Amazonbot
透過使用DNS查詢來驗證訪問您伺服器的爬蟲是否是官方的Amazonbot爬蟲,可以幫助您識別其他可能訪問您站點並聲稱是Amazonbot的機器人或惡意代理。

您可以使用命令列工具按照以下步驟驗證Amazonbot:

從伺服器日誌中找到訪問IP地址

使用host命令對IP地址執行反向DNS查詢

驗證檢索到的域名是crawl.amazonbot.amazon的子域名

使用host命令對檢索到的域名執行正向DNS查詢

驗證返回的IP地址與伺服器日誌中的原始IP地址相同

例如:

$ host 12.34.56.789

789.56.34.12.in-addr.arpa domain name pointer 12-34-56-789.crawl.amazonbot.amazon.


$ host 12-34-56-789.crawl.amazonbot.amazon
12-34-56-789.crawl.amazonbot.amazon has address 12.34.56.789

如果你覺得以上方法比較麻煩,可以直接透過爬蟲識別網站,輸入 Amazonbot 的 IP 地址,即可判斷是否是真正的 Amazonbot 爬蟲。

補充糾錯
上一蜘蛛: AhrefsBot
下一蜘蛛: ImagesiftBot