| 注意:原創(chuàng )文章,無(wú)版權,可以任意轉載,但必須完整轉載全文、url和內部解釋性鏈接
WEB結構化信息抽取就是將網(wǎng)頁(yè)中的非結構化數據按照一定的需求抽取成結構化數據。是垂直搜索引擎和通用搜索引擎最大的差別。 如:比較購物搜索那就需要抓取網(wǎng)頁(yè)后,對網(wǎng)頁(yè)中的商品信息進(jìn)行抽取,抽取出商品名稱(chēng)、價(jià)格、簡(jiǎn)介……甚至可以進(jìn)一步將筆記本簡(jiǎn)介細分成“品牌、型號、CPU、內存、硬盤(pán)、顯示屏、……” 房產(chǎn)信息搜索那就應該抽取出那應該抽取出:類(lèi)型、地域、地址、房型、面積、裝修情況、租金、聯(lián)系人、聯(lián)系電話(huà)…… 公司企業(yè)信息搜索那就應該抽取出:公司名稱(chēng)、地址、電話(huà)、聯(lián)系人…… ………… 結構化信息抽取有兩種方式可以實(shí)現,比較簡(jiǎn)單的是模板方式,還有一種是對網(wǎng)頁(yè)不依賴(lài)的網(wǎng)頁(yè)庫級的結構化信息抽取方式。 模板方式是事先對特定的網(wǎng)頁(yè)進(jìn)行配置模板,抽取模板中設置好的需要的信息,可以針對有限個(gè)網(wǎng)站的信息進(jìn)行精確的采集。 特點(diǎn):簡(jiǎn)單、精確、技術(shù)難度低、方便快速部署。 缺點(diǎn):需要針對每一個(gè)信息源的網(wǎng)站模板進(jìn)行單獨的設定在信息源多樣性的情況下維護量巨大是不可完成的維護量。所以這種方式適合少量信息源的信息處理,不是搜索引擎級的應用,很難滿(mǎn)足用戶(hù)對查全率的需求。 網(wǎng)頁(yè)庫結構化信息抽取是采用頁(yè)面結構分析與智能節點(diǎn)分析轉換的方法,自動(dòng)抽取結構化的數據。 特點(diǎn):可對任意的正常網(wǎng)頁(yè)進(jìn)行抽取,完全自動(dòng)化,不用對具體網(wǎng)站事先生成模板,對每個(gè)網(wǎng)頁(yè)自動(dòng)實(shí)時(shí)得生成抽取規則,完全不需要人工干預。智能抽取準確率高,不是機械的匹配,采用智能分析技術(shù),準確率能達到98%以上。能保證較快處理速度,由于采用頁(yè)面的智能分析技術(shù),先去除了垃圾塊,降低分析的壓力,是處理速度大大提高。通用性較好,易于維護,只需設定參數、配置相應的特征就能改進(jìn)相應的抽取性能;一般的非專(zhuān)業(yè)人員經(jīng)過(guò)簡(jiǎn)單培訓就能維護。 缺點(diǎn):技術(shù)難度高,前期研發(fā)成本高,周期長(cháng)。適合網(wǎng)頁(yè)庫級別結構化數據采集和搜索的高端應用。 我們的技術(shù)是對網(wǎng)頁(yè)不依賴(lài)的web結構化信息抽取技術(shù),適合高端的垂直搜索應用或者高端的競爭情報分析系統。 |