Bytespider

1. 抓取網頁

每個獨立的搜尋引擎都有自己的網頁抓取程式爬蟲(Spider)。爬蟲順著網頁中的超連結,從這個網站爬到另一個網站,透過超連結分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由於網際網路中超連結的應用很普遍,理論上,從一定範圍的網頁出發,就能蒐集到絕大多數的網頁。

2. 處理網頁

搜尋引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括去除重複網頁、分詞(中文)、判斷網頁型別、分析超連結、計算網頁的重要度/豐富度等。

3. 提供檢索服務

使用者輸入關鍵詞進行檢索,搜尋引擎從索引資料庫中找到匹配該關鍵詞的網頁;為了使用者便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他資訊。

補充糾錯
上一蜘蛛: EasouSpider
下一蜘蛛: MJ12bot