亚洲天堂网站视频_ (轉載)博客園 - elqy - 知識管理系統分析之一：網(wǎng)絡(luò )蜘蛛的分析

作為知識管理中最核心的部分，知識采集器無(wú)疑具有著(zhù)非常重要的作用，是我們所有工作和服務(wù)的基礎，在這一部分我們就我們的系統根據我們的需求進(jìn)行分析。
先來(lái)看一下我們的采集器都作了哪些工作？

和普通的爬蟲(chóng)一樣，需要實(shí)現給一個(gè)入口的網(wǎng)頁(yè)地址，那么它能夠自動(dòng)的進(jìn)行地址的分析和解析，并逐一的對地址進(jìn)行請求并獲取內容。獲取后可以保存起來(lái)。

首先，就拿獲取來(lái)說(shuō)，我們的爬蟲(chóng)是針對特定站點(diǎn)服務(wù)的，所以我們在這里第一步實(shí)現頁(yè)面的抓取，這是核心類(lèi)。在此基礎上我們需要對該類(lèi)進(jìn)行進(jìn)一步的包裝。包裝之后就可以根據我們提供的站點(diǎn)列表中進(jìn)行抓取，并且抓取的時(shí)候按照我們定義的規則進(jìn)行抓取。舉個(gè)例子，我們定義只一些正則表達式，根據匹配的進(jìn)行進(jìn)行獲取。并且這種匹配我們期望是可以進(jìn)行嵌套的。

其次，是我們的存儲工作，抓取為我們的提供了內容，那么如何進(jìn)行這些內容的存儲呢？因為在我們的存儲直接關(guān)系到我們未來(lái)的檢索。在這里需要考慮到系統的運行會(huì )導致知識庫內容的大量增加，如果僅使用單一的數據庫肯定無(wú)法滿(mǎn)足需要，所以，在存儲的時(shí)候，我們需要考慮到采用分區表，甚至是分布式數據庫的應用，只有這樣才能夠緩解我們的數據存儲和查詢(xún)的壓力。因為我們的產(chǎn)品畢竟不像是BI那樣需要對數據進(jìn)行分析，對我們來(lái)說(shuō)前期的數據組織是非常重要的。在這里我們有Oracle和SQL
SERVER 2005兩種選擇，這里我們選擇SQL SERVER 2005。
好了，采集器做了三種工作。

第一，獲取網(wǎng)頁(yè)，第二，分析網(wǎng)頁(yè)，第三，存儲網(wǎng)頁(yè)。

我們在獲取的時(shí)候需要編寫(xiě)核心類(lèi)或者組件，便于我們以后應用在其他的方面，所以我們把獲取的規則這部分擴展出來(lái)，可以外部的進(jìn)行規則定義。

在分析網(wǎng)頁(yè)這部分，可以進(jìn)行分析的定義，這樣我們可以保證在抓取的時(shí)候去掉我們不需要的部分。而且我們必須保證我們的分析可以進(jìn)行多次的調用分析。

在存儲頁(yè)面時(shí)需要考慮的是進(jìn)行分布式的存儲，這就要求我們存儲時(shí)進(jìn)行自動(dòng)化的存儲，根據一定的規則邏輯存儲到不同的服務(wù)器上面。

上面就是我們對網(wǎng)絡(luò )蜘蛛的分析，基于上面這些分析，我們就對系統中的知識采集器有了明確的認識。更為具體的設計我將會(huì )在以后的過(guò)程中陸續跟進(jìn)。

posted on 2006-01-03 10:59 像豬一樣生活閱讀(732) 評論(7) 編輯收藏收藏至365Key 所屬分類(lèi): 知識管理

類(lèi)似的產(chǎn)品，兩年前我做過(guò)，系統的架構和你這個(gè)差不多。lan內部使用的還是自己寫(xiě)的web server，在權限和數據加密上面作了很多工作。投入市場(chǎng)的時(shí)候卻失敗了。不知道你這個(gè)產(chǎn)品是個(gè)人玩玩還是公司項目。

# re: 知識管理系統分析之一：網(wǎng)絡(luò )蜘蛛的分析 2006-01-05 13:02 像豬一樣生活

謝謝大家的關(guān)注，這些東西早就有了構思了，現在只是我已經(jīng)有了demo之后才寫(xiě)出來(lái)的，大家注意到了，我這里是知識管理系統，整個(gè)的架構參見(jiàn)我的另外一篇文章。
另外，權限和數據加密的確是知識系統中的一個(gè)關(guān)鍵環(huán)節。
最初的初衷是想方便自己。但現在所有的demo都已經(jīng)有了，剩下的只是重構了。
這個(gè)項目我是以一個(gè)項目或者產(chǎn)品的性質(zhì)開(kāi)發(fā)的。因為打算以后自己或者和朋友開(kāi)個(gè)公司。

# re: 知識管理系統分析之一：網(wǎng)絡(luò )蜘蛛的分析 2006-01-06 14:32 leves

rss 變相或者部分地實(shí)現了這些功能.并且是一個(gè)大家都遵守的標準,它具有將信息推出來(lái)的能力,并且有簡(jiǎn)單的信息分類(lèi).接下來(lái)就是對rss 信息的分析和保存
http://leves.cnblogs.com/archive/2005/12/13/296107.html

# re: 知識管理系統分析之一：網(wǎng)絡(luò )蜘蛛的分析 2006-01-06 15:49 陳敘遠

搞個(gè)google或者baidu的桌面搜索算了，頂多在上面二次開(kāi)發(fā)一下。知識管理的核心在實(shí)施上。

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

評論