Yisouspider是什么蜘蛛？_Yisouspider_是什么爬虫？_怎么屏蔽Yisouspider

神馬蜘蛛是神馬上網，自動抓取網頁的程式。蜘蛛抓取網頁並建立索引，以便使用者可以透過搜尋引擎在網際網路上搜尋資源。

神馬會根據網站的規模、服務能力、頁面質量、更新速度等因素來決定訪問網站的頻率。通常神馬蜘蛛這種質量高、頁面更新快的網站，訪問頻率相對較高，這樣才能保證高質量、時效性的呈現給使用者。

神馬蜘蛛有規範的抓取流程，也會考慮網站的忙閒時間來抓取，所以不會給網站造成頻寬負擔。如果您發現名為Yisouspider的使用者代理的抓取嚴重影響網站的正常訪問，您可以將該時間段的訪問日誌資訊反饋給[email protected]，神馬校友會將給您傳送分析結論。

使用者代理是http協議的一個屬性，代表終端的身份。神馬蜘蛛的使用者代理是Yisouspider，由於歷史原因這個使用者代理名稱會繼續使用。

神馬蜘蛛發現新網頁的方法有很多。最典型的方式就是對找到的網頁中的超連結關係進行分析，選擇url並爬取，從而不斷擴充套件，爬取儘可能多的有價值的網頁。另外，神馬會從dns服務商那裡獲取新網站的域名，可以及時搶到新網站。

Robots.txt是搜尋引擎訪問網站時首先訪問的檔案，以此來決定允許或禁止抓取哪些網頁。神馬搜尋符合網際網路機器人協議。如果想完全禁止神馬的訪問或者部分目錄，可以透過robots.txt檔案設定內容，限制神馬蜘蛛的訪問許可權。

不想讓神馬搜尋抓取，可以選擇robots.txt協議禁止。

User-agent: Yisouspider

Disallow: /

如果還是禁止不了，可以選擇nginx規則禁止訪問，如下：

if ($http_user_agent ~* "Yisouspider") {

return 403;

}

Yisouspider