heritrix是什么蜘蛛？_heritrix_是什么爬虫？_怎么屏蔽heritrix

Heritrix是一個開源的網路爬蟲，主要用於在網際網路上抓取和歸檔網頁內容。它是由Internet Archive（網際網路檔案館）開發的，旨在幫助機構和個人建立自己的網路內容歸檔。

Heritrix的設計目標是支援大規模的、可持續的網頁抓取，並且具有高度的可配置性和靈活性。它使用模組化的架構和可擴充套件的外掛系統，可以根據使用者的需求進行定製和擴充套件。

Heritrix被廣泛應用於數字圖書館、檔案館、新聞機構等領域，用於建立和維護大規模的網路內容歸檔，以便長期儲存和檢索網際網路上的資訊資源。

不過對於國內網站來說不會帶來什麼流量，可以選擇robots.txt協議禁止。

User-agent: heritrix

Disallow: /

如果還是禁止不了，可以選擇nginx規則禁止訪問，如下：

if ($http_user_agent ~* "heritrix") {

return 403;

}

heritrix