Robots.txt檔案生成工具

限制目錄 (每個目錄必須以/開頭)
Sitemap 檔案 (留空為無)
檢索間隔 (單位秒)留空為不限
所有搜尋引擎
國內搜尋引擎
百度爬蟲
搜狗爬蟲
有道爬蟲
SOSO爬蟲
頭條爬蟲
神馬爬蟲
國外搜尋引擎
Google爬蟲
Bing爬蟲
雅虎爬蟲
Ask/Teoma爬蟲
Alexa爬蟲
MSN爬蟲
Scrub The Web爬蟲
DMOZ爬蟲
GigaBlast爬蟲
MJ12 爬蟲
Maui 爬蟲
BLEX 爬蟲
Ahrefs 爬蟲
Dot 爬蟲
Semrush 爬蟲
MegaIndex.ru 爬蟲
華為花瓣 爬蟲
Zoominfo 爬蟲
ExtLinks 爬蟲
俄羅斯 爬蟲
特殊搜尋引擎
Google Image爬蟲
Google Mobile爬蟲
Yahoo MM爬蟲
Yahoo Blogs爬蟲
MSN PicSearch爬蟲
Robots.txt檔案生成工具

線上robots.txt檔案生成工具,可以幫助站長快速生成標準的robots.txt檔案,支援一鍵匯出,直接傳到網站根目錄即可。

小經驗:強烈建議每個站根目錄都放置一個robots.txt的檔案,可以直接留空,但一定要放,避免因程式問題導致/robots.txt返回其他錯誤響應內容造成不可預知的結果,如搜尋引擎不收錄等。

Robots協議(爬蟲協議)是國際網際網路界通行的道德規範,一般是在一個web站點的根目錄下寫的robots.txt檔案,用來告知搜尋引擎哪些頁面能被抓取,哪些頁面不能被抓取,可以遮蔽一些網站中比較大的檔案,如:圖片,音樂,影片等,節省伺服器頻寬;可以遮蔽站點的一些死連結。方便搜尋引擎抓取網站內容;設定網站地圖連線,方便引導蜘蛛爬取頁面。

robots.txt基本用法

User-agent

User-agent是用來匹配爬蟲的,每個爬蟲都會有一個名字,如果你有安裝awstats統計工具,你就能檢視到爬蟲的名字,比如百度的爬蟲叫BaiDuSpider,Google的爬蟲叫Googlebot,*表示所有爬蟲。

Disallow

Disallow表示禁止爬蟲訪問的目錄。Disallow: / 表示攔截整站。

Allow

Allow表示允許爬蟲訪問的目錄。Allow: / 表示允許整站。

Sitemap

Sitemap用來指定sitemap的位置。

Crawl-delay

Crawl-delay用來告訴爬蟲兩次訪問的間隔,單位是秒。爬蟲如果爬得很勤,對動態網站來說,壓力有點大,可能會導致伺服器負載增高,使用者訪問變慢。

還可以使用萬用字元

*:匹配任意多個字元

$:表示URL的結尾

Robots.txt舉例

不管是Disallow,Allow還是Sitemap,每行只能寫一條規則。

攔截部分檔案或目錄

User-agent: *

Disallow: /cgi-bin/

Disallow: /aaa.html

允許爬蟲訪問所有的目錄,有兩種寫法

User-agent: *

Disallow:

User-agent: *

Allow: /

萬用字元的使用,攔截.gif檔案

User-agent: *

Disallow: /*.gif$

攔截帶有?的檔案

User-agent: *

Disallow: /*?

Sitemap例子

Sitemap: https://www.36jxs.com/too/sitemap.xml

分享連結