Bytespider

1. 抓取網頁

每個獨立的搜尋引擎都有自己的網頁抓取程式爬蟲（Spider）。爬蟲順著網頁中的超連結，從這個網站爬到另一個網站，透過超連結分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由於網際網路中超連結的應用很普遍，理論上，從一定範圍的網頁出發，就能蒐集到絕大多數的網頁。

2. 處理網頁

搜尋引擎抓到網頁後，還要做大量的預處理工作，才能提供檢索服務。其中，最重要的就是提取關鍵詞，建立索引庫和索引。其他還包括去除重複網頁、分詞（中文）、判斷網頁型別、分析超連結、計算網頁的重要度/豐富度等。

3. 提供檢索服務

使用者輸入關鍵詞進行檢索，搜尋引擎從索引資料庫中找到匹配該關鍵詞的網頁；為了使用者便於判斷，除了網頁標題和URL外，還會提供一段來自網頁的摘要以及其他資訊。

補充糾錯

上一蜘蛛： EasouSpider

下一蜘蛛： MJ12bot

大家都在看

Baiduspider
百度蜘蛛
MJ12bot
英國MJ12蜘蛛
sogou spider
搜狗蜘蛛
bingbot
必應蜘蛛
SEMrushBot
SEMrush蜘蛛
Amazonbot
亞馬遜蜘蛛
EtaoSpider
一淘蜘蛛
AdsBot
Ads蜘蛛
AraybOt
Aray蜘蛛
SeznamBot
Seznam蜘蛛
spbot
sp蜘蛛
YYSpider
YY蜘蛛

分享連結

熱門工具排行榜

熱門工具排行榜