1. 抓取網頁
每個獨立的搜尋引擎都有自己的網頁抓取程式爬蟲(Spider)。爬蟲順著網頁中的超連結,從這個網站爬到另一個網站,透過超連結分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由於網際網路中超連結的應用很普遍,理論上,從一定範圍的網頁出發,就能蒐集到絕大多數的網頁。
每個獨立的搜尋引擎都有自己的網頁抓取程式爬蟲(Spider)。爬蟲順著網頁中的超連結,從這個網站爬到另一個網站,透過超連結分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由於網際網路中超連結的應用很普遍,理論上,從一定範圍的網頁出發,就能蒐集到絕大多數的網頁。
百度蜘蛛
必應蜘蛛
一淘蜘蛛
英國MJ12蜘蛛
亞馬遜蜘蛛
Aray蜘蛛
Ads蜘蛛
搜狗蜘蛛
Mail.RU蜘蛛
sp蜘蛛
Ask蜘蛛
俄羅斯蜘蛛