森特搜索引擎是杭州森特信息技術(shù)有限公司開(kāi)發(fā)的一套以Internet信息抓取為目的的跨平臺軟件,主要用于指定網(wǎng)絡(luò )信息的抓取,實(shí)現在用戶(hù)自定義的規則下,自動(dòng)從互聯(lián)網(wǎng)上的http服務(wù)器(或其它服務(wù)器)上抓取指定信息,并自動(dòng)從網(wǎng)頁(yè)中分析解析出信息并整理存為數據庫格式。
森特搜索引擎――信息抓取系統 的工作流程分為四個(gè)階段:
◎ 信息規劃:設定信息來(lái)源,確立信息獲取任務(wù);
◎ 信息采集:從互聯(lián)網(wǎng)抓取網(wǎng)頁(yè)信息,并進(jìn)行標準化分析處理;
◎ 信息分析:對采集的信息進(jìn)行數據挖掘,包括自動(dòng)分類(lèi)、自動(dòng)提取關(guān)鍵詞和自動(dòng)消重;
◎ 信息管理:按照用戶(hù)的需要將信息及分析結果存儲下來(lái)。
森特搜索引擎-信息抓取系統主要包括信息采集、信息檢索過(guò)濾和信息發(fā)布三大模塊,主要有如下的功能特色:
◆對目標網(wǎng)站進(jìn)行信息自動(dòng)抓取,支持各種標準格式信息資源的采集,如 HTML頁(yè)面、文本信息、圖片等。
◆抓取速度快,系統采用多線(xiàn)程并發(fā)搜索技術(shù),用戶(hù)可根據需要設置并發(fā)線(xiàn)程的數目。
◆搜集到的信息可以按照不同的分類(lèi)方式,并且保留原文鏈接。用戶(hù)可以按照日期、來(lái)源、標題進(jìn)行檢索、瀏覽。
◆ 可以對抓取的信息定義關(guān)鍵字,對網(wǎng)頁(yè)內容進(jìn)行過(guò)濾,并可進(jìn)行組合檢索和二次檢索,檢索到的信息可以進(jìn)行數據批量導出。
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請
點(diǎn)擊舉報。