BUbiNG是一個開源的網路爬蟲系統,由義大利Pisa大學的研究團隊開發。它是專門為大規模抓取和索引網際網路內容而設計的,具有高效效能和可擴充套件性。
BUbiNG的特點包括多執行緒抓取、分散式架構、針對大規模資料集的最佳化等。它可以用於構建搜尋引擎、資料探勘專案、資訊檢索系統等應用,能夠快速而有效地抓取網際網路上的大量資訊。
不過對於國內網站來說不會帶來什麼流量,可以選擇robots.txt協議禁止。
User-agent: BUbiNG
Disallow: /
如果還是禁止不了,可以選擇nginx規則禁止訪問,如下:
if ($http_user_agent ~* "BUbiNG") {
return 403;
}