heritrix

Heritrix是一個開源的網路爬蟲,主要用於在網際網路上抓取和歸檔網頁內容。它是由Internet Archive(網際網路檔案館)開發的,旨在幫助機構和個人建立自己的網路內容歸檔。

Heritrix的設計目標是支援大規模的、可持續的網頁抓取,並且具有高度的可配置性和靈活性。它使用模組化的架構和可擴充套件的外掛系統,可以根據使用者的需求進行定製和擴充套件。

Heritrix被廣泛應用於數字圖書館、檔案館、新聞機構等領域,用於建立和維護大規模的網路內容歸檔,以便長期儲存和檢索網際網路上的資訊資源。

不過對於國內網站來說不會帶來什麼流量,可以選擇robots.txt協議禁止。

User-agent: heritrix

Disallow: /

如果還是禁止不了,可以選擇nginx規則禁止訪問,如下:

if ($http_user_agent ~* "heritrix") {

 return 403;

}

補充糾錯
上一蜘蛛: YouBot
下一蜘蛛: EtaoSpider