sogou spider是搜狗搜尋引擎的一個自動程式。它的作用是訪問網際網路上的網頁,儲存到本地資料庫中,並從中發現新的連結,走訪網際網路,使使用者能在搜狗搜尋引擎中搜尋到您網站的網頁。
Q. sogou spider 訪問我的網站過快怎麼辦?
sogou spider 對於同一個 IP 地址的伺服器主機,只建立一個連線,抓取間隔速度控制在幾秒一次。一個網頁被收錄後,最快也要過幾天以後才會去更新。如果持續不斷地抓取您的網站,請注意您的網站上的網頁是否每次訪問都產生新的連結。如果您認為 sogou spider 對於您的網站抓取過快,請與我們聯絡,最好能提供訪問日誌中 sogou spider 訪問的部分。點此投訴spider抓取過快
Q. sogou spider 喜歡收錄什麼樣的頁面?
1. 內容優良而獨特的頁面,如果您的頁面內容和網際網路上已存在的其他頁面有高度的相似性,可能不會被 sogou spider 收錄。
2. 連結層次較淺的頁面,過深的連結層次,尤其是動態網頁的連結,會被丟棄而不收錄。
3. 如果是動態網頁,請控制一下引數的數量和URL的長度。搜狗更偏好收錄靜態網頁。
4. 重定向次數越多的頁面,越有可能被 sogou spider 丟棄。
Q. sogou spider 如何反應我網站上頁面的更新?
sogou spider 根據網頁的重要性和歷史變化情況來動態調整更新時間,更新已經抓取過的頁面。
Q. 如何 sogou spider 不抓我的網站?
sogou spider 支援 robots 協議,您可以在網站的根目錄放置 robots.txt。
robots.txt 的規則請參閱 http://www.robotstxt.org/。
但是新更新的 robots.txt 可能得過幾個星期才能體現出效果來。
需要注意的是,被您禁止 sogou spider 收錄的網頁將不能在搜狗搜尋引擎上檢索到。
不想讓搜狗搜尋抓取,可以選擇robots.txt協議禁止。
User-agent: sogou spider
Disallow: /
如果還是禁止不了,可以選擇nginx規則禁止訪問,如下:
if ($http_user_agent ~* "sogou") {
return 403;
}