Yisouspider

神馬蜘蛛是神馬上網,自動抓取網頁的程式。蜘蛛抓取網頁並建立索引,以便使用者可以透過搜尋引擎在網際網路上搜尋資源。

神馬Spider的網站訪問頻率

神馬會根據網站的規模、服務能力、頁面質量、更新速度等因素來決定訪問網站的頻率。通常神馬蜘蛛這種質量高、頁面更新快的網站,訪問頻率相對較高,這樣才能保證高質量、時效性的呈現給使用者。

神馬Spider是否會造成頻寬負擔

神馬蜘蛛有規範的抓取流程,也會考慮網站的忙閒時間來抓取,所以不會給網站造成頻寬負擔。如果您發現名為Yisouspider的使用者代理的抓取嚴重影響網站的正常訪問,您可以將該時間段的訪問日誌資訊反饋給[email protected],神馬校友會將給您傳送分析結論。


神馬Spider的user-agent及ip地址

使用者代理是http協議的一個屬性,代表終端的身份。神馬蜘蛛的使用者代理是Yisouspider,由於歷史原因這個使用者代理名稱會繼續使用。



神馬spider如何發現新網頁

神馬蜘蛛發現新網頁的方法有很多。最典型的方式就是對找到的網頁中的超連結關係進行分析,選擇url並爬取,從而不斷擴充套件,爬取儘可能多的有價值的網頁。另外,神馬會從dns服務商那裡獲取新網站的域名,可以及時搶到新網站。



關於robots協議

Robots.txt是搜尋引擎訪問網站時首先訪問的檔案,以此來決定允許或禁止抓取哪些網頁。神馬搜尋符合網際網路機器人協議。如果想完全禁止神馬的訪問或者部分目錄,可以透過robots.txt檔案設定內容,限制神馬蜘蛛的訪問許可權。

不想讓神馬搜尋抓取,可以選擇robots.txt協議禁止。

User-agent: Yisouspider

Disallow: /

如果還是禁止不了,可以選擇nginx規則禁止訪問,如下:

if ($http_user_agent ~* "Yisouspider") {

 return 403;

}


補充糾錯
上一蜘蛛: sogou spider
下一蜘蛛: Yahoo Slurp