如果說對于python有過了解的學員的話肯定就是對于python就是有了解的了,爬蟲是python的一部分了,在系統(tǒng)結構中網(wǎng)絡爬蟲的分類是要分為多少種的呢?大家對于這些網(wǎng)絡爬蟲是否真的了解呢?今天達內科技就來和大家一起了解下網(wǎng)絡爬蟲的分類。
1.通用網(wǎng)絡爬蟲(General Purpose Web Crawler)
爬取目標資源在全互聯(lián)網(wǎng)中,爬取目標數(shù)據(jù)巨大。對爬取性能要求非常高。應用于大型搜索引擎中,有非常高的應用價值。
通用網(wǎng)絡爬蟲的基本構成:初始URL集合,URL隊列,頁面爬行模塊,頁面分析模塊,頁面數(shù)據(jù)庫,鏈接過濾模塊等構成。
通用網(wǎng)絡爬蟲的爬行策略:主要有深度優(yōu)先爬行策略和廣度優(yōu)先爬行策略。
2.聚焦網(wǎng)絡爬蟲(Focused Crawler)
將爬取目標定位在與主題相關的頁面中
主要應用在對特定信息的爬取中,主要為某一類特定的人群提供服務
聚焦網(wǎng)絡爬蟲的基本構成:初始URL,URL隊列,頁面爬行模塊,頁面分析模塊,頁面數(shù)據(jù)庫,連接過濾模塊,內容評價模塊,鏈接評價模塊等構成
聚焦網(wǎng)絡爬蟲的爬行策略:
基于內容評價的爬行策略
基于鏈接評價的爬行策略
基于增強學習的爬行策略
基于語境圖的爬行策略
關于聚焦網(wǎng)絡爬蟲具體的爬行策略
3.增量式網(wǎng)絡爬蟲(Incremental Web Crawler)
增量式更新指的是在更新的時候只更新改變的地方,而未改變的地方則不更新
只爬取內容發(fā)生變化的網(wǎng)頁或者新產(chǎn)生的網(wǎng)頁,
一定程度上能保證所爬取的網(wǎng)頁,盡可能是新網(wǎng)頁
4.深層網(wǎng)絡爬蟲(Deep Web Crawler)
表層網(wǎng)頁:不需要提交表單,使用靜態(tài)的鏈接就能夠到達的靜態(tài)網(wǎng)頁
深層網(wǎng)頁:隱藏在表單后面,不能通過靜態(tài)鏈接直接獲得,是需要提交一定的關鍵詞之后才能夠獲取得到的網(wǎng)頁。
深層網(wǎng)絡爬蟲重要的部分即為表單填寫部分
深層網(wǎng)絡爬蟲的基本構成:URL列表,LVS列表(LVS指的是標簽/數(shù)值集合,即填充表單的數(shù)據(jù)源)爬行控制器,解析器,LVS控制器,表單分析器,表單處理器,響應分析器等
深層網(wǎng)絡爬蟲表單填寫有兩種類型:
基于領域知識的表單填寫(建立一個填寫表單的關鍵詞庫,在需要的時候,根據(jù)語義分析選擇對應的關鍵詞進行填寫)
基于網(wǎng)頁結構分析的表單填寫(一般是領域只是有限的情況下使用,這種方式會根據(jù)網(wǎng)頁結構進行分析,并自動的進行表單填寫)
網(wǎng)絡爬蟲的分類達內科技就和大家講解這么多了,不管是你是對網(wǎng)絡爬蟲感興趣還是你對于python感興趣,達內科技都歡迎大家來我們公司的Python培訓班進行實地考察,也可以來免費體驗我們的python免費試聽課程,獲取的方式可以點擊我們文章下面的獲取試聽資格按鈕來獲取。