robots.txt檔案生成工具

Robots.txt檔案生成工具

線上robots.txt檔案生成工具，可以幫助站長快速生成標準的robots.txt檔案，支援一鍵匯出，直接傳到網站根目錄即可。

小經驗：強烈建議每個站根目錄都放置一個robots.txt的檔案，可以直接留空，但一定要放，避免因程式問題導致/robots.txt返回其他錯誤響應內容造成不可預知的結果，如搜尋引擎不收錄等。

Robots協議（爬蟲協議）是國際網際網路界通行的道德規範，一般是在一個web站點的根目錄下寫的robots.txt檔案，用來告知搜尋引擎哪些頁面能被抓取，哪些頁面不能被抓取，可以遮蔽一些網站中比較大的檔案，如：圖片，音樂，影片等，節省伺服器頻寬；可以遮蔽站點的一些死連結。方便搜尋引擎抓取網站內容；設定網站地圖連線，方便引導蜘蛛爬取頁面。

robots.txt基本用法

User-agent

User-agent是用來匹配爬蟲的，每個爬蟲都會有一個名字，如果你有安裝awstats統計工具，你就能檢視到爬蟲的名字，比如百度的爬蟲叫BaiDuSpider，Google的爬蟲叫Googlebot，*表示所有爬蟲。

Disallow

Disallow表示禁止爬蟲訪問的目錄。Disallow: / 表示攔截整站。

Allow

Allow表示允許爬蟲訪問的目錄。Allow: / 表示允許整站。

Sitemap

Sitemap用來指定sitemap的位置。

Crawl-delay

Crawl-delay用來告訴爬蟲兩次訪問的間隔，單位是秒。爬蟲如果爬得很勤，對動態網站來說，壓力有點大，可能會導致伺服器負載增高，使用者訪問變慢。

還可以使用萬用字元

*：匹配任意多個字元

$：表示URL的結尾

Robots.txt舉例

不管是Disallow，Allow還是Sitemap，每行只能寫一條規則。

攔截部分檔案或目錄

User-agent: *

Disallow: /cgi-bin/

Disallow: /aaa.html

允許爬蟲訪問所有的目錄，有兩種寫法

User-agent: *

Disallow:

User-agent: *

Allow: /

萬用字元的使用，攔截.gif檔案

User-agent: *

Disallow: /*.gif$

攔截帶有?的檔案

User-agent: *

Disallow: /*?

Sitemap例子

Sitemap: https://www.36jxs.com/too/sitemap.xml

分享連結

你可能感興趣的工具

補充糾錯