欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
(轉載)博客園 - elqy - 知識管理系統分析之一:網(wǎng)絡(luò )蜘蛛的分析

作為知識管理中最核心的部分,知識采集器無(wú)疑具有著(zhù)非常重要的作用,是我們所有工作和服務(wù)的基礎,在這一部分我們就我們的系統根據我們的需求進(jìn)行分析。
   先來(lái)看一下我們的采集器都作了哪些工作?

和普通的爬蟲(chóng)一樣,需要實(shí)現給一個(gè)入口的網(wǎng)頁(yè)地址,那么它能夠自動(dòng)的進(jìn)行地址的分析和解析,并逐一的對地址進(jìn)行請求并獲取內容。獲取后可以保存起來(lái)。

首先,就拿獲取來(lái)說(shuō),我們的爬蟲(chóng)是針對特定站點(diǎn)服務(wù)的,所以我們在這里第一步實(shí)現頁(yè)面的抓取,這是核心類(lèi)。在此基礎上我們需要對該類(lèi)進(jìn)行進(jìn)一步的包裝。包裝之后­就可以根據我們提供的站點(diǎn)列表中進(jìn)行抓取,并且抓取的時(shí)候按照我們定義的規則進(jìn)行抓取。舉個(gè)例子,我們定義只一些正則表達式,根據匹配的進(jìn)行進(jìn)行獲取。并且這種­匹配我們期望是可以進(jìn)行嵌套的。

其次,是我們的存儲工作,抓取為我們的提供了內容,那么如何進(jìn)行這些內容的存儲呢?因為在我們的存儲直接關(guān)系到我們未來(lái)的檢索。在這里需要考慮到系統的運行會(huì )導­致知識庫內容的大量增加,如果僅使用單一的數據庫肯定無(wú)法滿(mǎn)足需要,所以,在存儲的時(shí)候,我們需要考慮到采用分區表,甚至是分布式數據庫的應用,只有這樣才能夠­緩解我們的數據存儲和查詢(xún)的壓力。因為我們的產(chǎn)品畢竟不像是BI那樣需要對數據進(jìn)行分析,對我們來(lái)說(shuō)前期的數據組織是非常重要的。在這里我們有Oracle和S­QL
SERVER 2005兩種選擇,這里我們選擇SQL SERVER 2005。
   好了,采集器做了三種工作。

第一,獲取網(wǎng)頁(yè),第二,分析網(wǎng)頁(yè),第三,存儲網(wǎng)頁(yè)。

我們在獲取的時(shí)候需要編寫(xiě)核心類(lèi)或者組件,便于我們以后應用在其他的方面,所以我們把獲取的規則這部分擴展出來(lái),可以外部的進(jìn)行規則定義。

在分析網(wǎng)頁(yè)這部分,可以進(jìn)行分析的定義,這樣我們可以保證在抓取的時(shí)候去掉我們不需要的部分。而且我們必須保證我們的分析可以進(jìn)行多次的調用分析。

在存儲頁(yè)面時(shí)需要考慮的是進(jìn)行分布式的存儲,這就要求我們存儲時(shí)進(jìn)行自動(dòng)化的存儲,根據一定的規則邏輯存儲到不同的服務(wù)器上面。

上面就是我們對網(wǎng)絡(luò )蜘蛛的分析,基于上面這些分析,我們就對系統中的知識采集器有了明確的認識。更為具體的設計我將會(huì )在以后的過(guò)程中陸續跟進(jìn)。

posted on 2006-01-03 10:59 像豬一樣生活 閱讀(732) 評論(7)  編輯 收藏 收藏至365Key 所屬分類(lèi): 知識管理

評論

# re: 知識管理系統分析之一:網(wǎng)絡(luò )蜘蛛的分析 2006-01-03 12:47 蠟人張
關(guān)注,一直想做一個(gè)spider,可是沒(méi)時(shí)間。
  

# re: 知識管理系統分析之一:網(wǎng)絡(luò )蜘蛛的分析 2006-01-04 09:08 知識管理
繼續關(guān)注
  

# re: 知識管理系統分析之一:網(wǎng)絡(luò )蜘蛛的分析 2006-01-04 12:20 蜘蛛俠
一直就對搜索引擎很興趣,最好能有一些搜索算法和搜索程序架構的介紹就好了,關(guān)注中……
  

# re: 知識管理系統分析之一:網(wǎng)絡(luò )蜘蛛的分析 2006-01-05 11:54 marrabech
類(lèi)似的產(chǎn)品,兩年前我做過(guò),系統的架構和你這個(gè)差不多。lan內部使用的還是自己寫(xiě)的web server,在權限和數據加密上面作了很多工作。投入市場(chǎng)的時(shí)候卻失敗了。不知道你這個(gè)產(chǎn)品是個(gè)人玩玩還是公司項目。
  

# re: 知識管理系統分析之一:網(wǎng)絡(luò )蜘蛛的分析 2006-01-05 13:02 像豬一樣生活
謝謝大家的關(guān)注,這些東西早就有了構思了,現在只是我已經(jīng)有了demo之后才寫(xiě)出來(lái)的,大家注意到了,我這里是知識管理系統,整個(gè)的架構參見(jiàn)我的另外一篇文章。
另外,權限和數據加密的確是知識系統中的一個(gè)關(guān)鍵環(huán)節。
最初的初衷是想方便自己。但現在所有的demo都已經(jīng)有了,剩下的只是重構了。
這個(gè)項目我是以一個(gè)項目或者產(chǎn)品的性質(zhì)開(kāi)發(fā)的。因為打算以后自己或者和朋友開(kāi)個(gè)公司。
  

# re: 知識管理系統分析之一:網(wǎng)絡(luò )蜘蛛的分析 2006-01-06 14:32 leves
rss 變相或者部分地實(shí)現了這些功能.并且是一個(gè)大家都遵守的標準,它具有將信息推出來(lái)的能力,并且有簡(jiǎn)單的信息分類(lèi).接下來(lái)就是對rss 信息的分析和保存
http://leves.cnblogs.com/archive/2005/12/13/296107.html
  

# re: 知識管理系統分析之一:網(wǎng)絡(luò )蜘蛛的分析 2006-01-06 15:49 陳敘遠
搞個(gè)google或者baidu的桌面搜索算了,頂多在上面二次開(kāi)發(fā)一下。知識管理的核心在實(shí)施上。
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
一項知識管理產(chǎn)品設計
經(jīng)常說(shuō)的數據倉庫,是如何存儲數據的
IBM發(fā)布面向大數據的軟件定義存儲技術(shù)
數據倉庫系統
知識圖譜構建
寫(xiě)給不了解網(wǎng)絡(luò )工程師的和想學(xué)習網(wǎng)絡(luò )工程師的人
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久