欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
電力文本數據挖掘現狀及挑戰


王慧芳1,曹 靖1,羅 麟2

(1.浙江大學(xué)電氣工程學(xué)院,杭州 310027;2.國網(wǎng)浙江省電力有限公司舟山供電公司,浙江 舟山 316021)

本文引文信息:王慧芳, 曹靖, 羅麟. 電力文本數據挖掘現狀及挑戰[J]. 浙江電力, 2019, 38(3)

<有少部分刪減>

0 引言

隨著(zhù)智能電網(wǎng)建設的全面展開(kāi),以及電力信息通信與電網(wǎng)企業(yè)經(jīng)營(yíng)管理的深度融合,電力數據出現爆發(fā)性增長(cháng)[1-2]。這些數據中隱藏著(zhù)豐富的關(guān)系到電網(wǎng)安全穩定經(jīng)濟運行的信息,因而成為電網(wǎng)企業(yè)寶貴的數據資產(chǎn)[3]。電力大數據雖已成為當前熱點(diǎn)研究對象,然而每年只有少量的數據被挖掘利用[4],因此電力數據挖掘是智能電網(wǎng)發(fā)展迫切需要研究的前沿領(lǐng)域。

電網(wǎng)企業(yè)是資產(chǎn)密集型企業(yè),電力設備健康狀態(tài)管理是其核心任務(wù),利用大數據進(jìn)行科學(xué)管理是必然趨勢[5]。然而普遍認為,電網(wǎng)數據存在體量大、類(lèi)型多、價(jià)值密度低和變化快的特點(diǎn),較難利用。其中,數據價(jià)值密度低,是指絕大部分數據是電網(wǎng)正常數據,只有極少量的異常數據[6]。數據的嚴重偏斜影響基于機器學(xué)習、深度學(xué)習等人工智能方法的挖掘效果。幸運的是,電力數據類(lèi)型眾多,其中文本數據,因“重要的事情常常被記錄”而具有價(jià)值密度高的特點(diǎn),挖掘前景好,因此電力文本挖掘是電力設備健康管理重點(diǎn)關(guān)注的關(guān)鍵技術(shù)之一。

當前自然語(yǔ)言處理、人工智能等技術(shù)快速發(fā)展,為電力文本挖掘提供了良好的技術(shù)基礎;同時(shí)電網(wǎng)企業(yè)已積累了大量與電力設備健康相關(guān)的文本,如缺陷、消缺等短文本,以及試驗、故障分析報告等長(cháng)文本,具備了文本挖掘的數據條件。此外,電網(wǎng)企業(yè)已建立了諸多與設備健康相關(guān)的標準,如分別針對輸變電設備和配電網(wǎng)設備的缺陷分類(lèi)標準、設備狀態(tài)評價(jià)導則、狀態(tài)檢修試驗規程等,為文本挖掘的應用提供了參照與規則支持。因而,電力文本挖掘的條件已具備,且發(fā)展前景廣闊。

然而,由于現階段知識和技術(shù)層面上的匱乏,文本挖掘技術(shù)在國內電力行業(yè)還屬于新興的前沿領(lǐng)域,大部分研究還處于探究試驗階段,應用效益尚未顯現。與互聯(lián)網(wǎng)、醫學(xué)等行業(yè)取得的成就相比,電力行業(yè)的文本挖掘研究還有待加強。

為此,基于電力文本挖掘領(lǐng)域已做的前期探索,本文歸納了電力文本數據挖掘的關(guān)鍵技術(shù)和典型應用,分析了這一領(lǐng)域面臨的挑戰。首先介紹文本挖掘技術(shù)的發(fā)展歷程,指出文本挖掘技術(shù)的難點(diǎn);接著(zhù)重點(diǎn)分析電力文本數據挖掘關(guān)鍵技術(shù)及研究現狀;然后介紹文本挖掘技術(shù)在電力缺陷文本中的典型應用;最后,提出電力文本挖掘面臨的挑戰。

1 文本挖掘技術(shù)概述

1.1 文本挖掘技術(shù)發(fā)展過(guò)程

文本挖掘的概念最早出現在20世紀80年代中期,它集成了自然語(yǔ)言處理和數據挖掘的部分技術(shù)與理念,至今已有30多年的歷史。早期,文本挖掘的科學(xué)性一度受到質(zhì)疑和詬病,但隨著(zhù)文本挖掘技術(shù)的進(jìn)步和發(fā)展,其應用逐漸得到認可,并成為研究熱點(diǎn)。

狹義上,文本挖掘是指從大量文本數據中提取事先未知的、可理解的、最終可用的知識的過(guò)程,同時(shí)運用這些知識更好地組織信息、解決問(wèn)題;廣義上,文本挖掘既包括文本知識抽取,也包括面向各種應用的文本數據處理過(guò)程。

目前,理論研究方面,文本挖掘的主要研究方向有文本結構分析、文本語(yǔ)義分析、文本摘要、文本關(guān)聯(lián)分析等;應用研究方面,在社科情報和生物醫學(xué)領(lǐng)域的研究成果較多。在社科情報領(lǐng)域,文本挖掘被用于微博熱點(diǎn)話(huà)題監測[7]、情感分析[8]、用戶(hù)評論語(yǔ)義分析[9]、垃圾郵件分類(lèi)[10]等。在生物醫學(xué)領(lǐng)域,有基于文本挖掘提取領(lǐng)域知識[11]、通過(guò)挖掘事件記錄發(fā)現突發(fā)事件與醫學(xué)救援裝備之間的關(guān)聯(lián)[12]等研究。

1.2 文本挖掘技術(shù)難點(diǎn)

文本數據屬于自然語(yǔ)言,其挖掘涉及語(yǔ)言學(xué)、數學(xué)、計算機科學(xué)、信息學(xué)、心理科學(xué)、認知科學(xué)以及應用領(lǐng)域等眾多學(xué)科。

從技術(shù)角度看,文本挖掘存在數據和方法兩方面困難。數據方面,文本屬于非結構化數據,無(wú)確定形式并且缺乏機器可理解的語(yǔ)義,需要轉化為結構化數據才能被進(jìn)一步挖掘;同時(shí),文本屬于自然語(yǔ)言范疇,容易出現模糊性和歧義性,準確理解和使用難度大;此外,文本采用的語(yǔ)言不同,挖掘技術(shù)就難以簡(jiǎn)單地移植。方法方面,雖然現有的文本挖掘方法已能解決一部分問(wèn)題,但依然存在效果欠佳問(wèn)題,例如搜索引擎還無(wú)法根據輸入文本返回精準答案;還有很多文本挖掘問(wèn)題尚無(wú)有效解決方法。

從應用角度看,通用的文本挖掘方法運用于專(zhuān)業(yè)領(lǐng)域時(shí),常會(huì )出現各種各樣的問(wèn)題,因此專(zhuān)業(yè)領(lǐng)域的文本挖掘需考慮通用挖掘方法的適應性。此外,只有引入應用領(lǐng)域的專(zhuān)業(yè)知識,文本挖掘才更具有針對性與準確性,因此需要結合應用領(lǐng)域的專(zhuān)業(yè)特點(diǎn)去探索解決文本挖掘問(wèn)題的方法。

2 電力文本數據挖掘關(guān)鍵技術(shù)研究現狀

2.1 電力文本預處理技術(shù)

非結構化的電力文本數據需要先進(jìn)行文本預處理以及文本表示,才能轉化為結構化數據進(jìn)行挖掘。文本預處理通常包括文本分詞、詞性標注與去停用詞等。電力文本預處理還需要構建電力領(lǐng)域本體字典。

電力本體字典的構建是指將電力詞匯分別按照同義、近義、反義、上下位、整體-部分等本體關(guān)系進(jìn)行組織,并存儲在數據庫中以供查詢(xún)、調用[13]。構建電力本體字典前,首先要構建電力文本語(yǔ)料庫,如選擇各類(lèi)電力設備的缺陷、消缺、檢修、試驗等記錄或報告,也可以選擇企業(yè)頒布的與電力設備相關(guān)的導則、標準,還有電力企業(yè)的各種工單、工作票、操作票等;然后結合已有的外部通用字典,采用基于統計的分詞模型,如采用基于隱馬爾科夫模型、條件隨機場(chǎng)模型等,對語(yǔ)料庫進(jìn)行分詞,并基于詞頻對分詞結果進(jìn)行排序;最后依靠具有電力領(lǐng)域專(zhuān)業(yè)知識的人員對專(zhuān)業(yè)術(shù)語(yǔ)、通俗用語(yǔ)、名詞堆砌的詞串和短語(yǔ)詞匯等進(jìn)行修正,并按照同義詞集、整體-部分關(guān)系、實(shí)體-屬性關(guān)系等構建本體字典[14]。需說(shuō)明的是,本體字典的構建不會(huì )是一次完成,而是隨著(zhù)新語(yǔ)料庫的增加,會(huì )有補充或修訂。電力本體字典的構建是必須的基礎工作,其質(zhì)量關(guān)系著(zhù)后續電力文本挖掘的科學(xué)性。

文本分詞技術(shù)可分為3類(lèi):基于本體字典的分詞技術(shù)、基于統計規律的無(wú)字典分詞技術(shù)以及二者的結合。本體字典的建立可以大大提高分詞的準確性與停用詞的識別效果?;诮y計規律的無(wú)字典分詞技術(shù)雖可以減輕建立字典的負擔,但準確性難以保證,分詞后需進(jìn)行詞性標注。詞性既可以是名詞、動(dòng)詞等,也可以根據挖掘需求自行定義,例如文獻[15]中的大部件、小部件、屬性、程度,以及文獻[16]中的實(shí)體、缺陷現象、定性缺陷程度、定量缺陷程度等。詞性標注的本質(zhì)是分類(lèi)問(wèn)題。將電力文本切分為一個(gè)個(gè)詞匯后,除了有用的電力詞匯,還會(huì )出現人名、地名、符號等停用詞[14],可根據實(shí)際挖掘需求去除待處理文本中的停用詞。

2.2 電力文本表示方法

文本表示方法是指將文本數據表示成計算機可處理的形式,表示方式將直接影響后續數據挖掘的效率和效果。表示方法有很多,如向量空間模型、嵌入式向量模型等向量化表示方法,以及語(yǔ)義框架模型、樹(shù)/圖結構模型、正則表達法等等。

(1)向量空間模型用于快速提取句子的整體含義,而對句子中詞匯順序不是很關(guān)注;而嵌入式向量模型用于需要突出某一個(gè)或幾個(gè)詞匯含義或順序的文本。常見(jiàn)的向量化方法有詞袋方法與Word2Vec方法。詞袋方法基于向量空間模型,簡(jiǎn)單通俗,但向量維度高,而且詞向量忽略了句法;Word2Vec方法基于神經(jīng)網(wǎng)絡(luò )訓練得到,屬于嵌入式向量模型,詞向量維度低,而且由于訓練時(shí)考慮了上下文,不同詞之間具有同義、近義、反義等語(yǔ)義信息,可通過(guò)計算向量相似度衡量。Doc2Vec是Word2Vec的拓展,用類(lèi)似的方法將句子向量化,優(yōu)點(diǎn)在于可以提取句子主旨。

(2)語(yǔ)義框架模型,是指對于特定內容的文本,根據其語(yǔ)法基本模型,定義語(yǔ)義槽和語(yǔ)義框架,然后采用基于本體字典的槽填充方法,實(shí)現文本的特殊表示。

(3)樹(shù)結構模型可以分析句法結構,形成以“核心詞-依存關(guān)系-依存詞”為基本形式的依存關(guān)系樹(shù)。圖結構模型是將一條文本表示為圖結構形式,表示過(guò)程與知識圖譜相似,首先基于本體字典識別文本中的實(shí)體與屬性,然后進(jìn)行共指消解,查找出所有表示實(shí)體/屬性的詞當中的同義詞,接下來(lái)進(jìn)行關(guān)系抽取,識別各實(shí)體/屬性間是否存在關(guān)系及相應關(guān)系類(lèi)型,最后進(jìn)行關(guān)系篩選,如刪除冗余的包含關(guān)系等。圖結構的表示形式能夠一定程度上反映文本中復雜的關(guān)聯(lián)信息,是文本挖掘的有效手段之一。

(4)電力文本還可以采用正則表達式法,用于提取句中的數字、字母、特殊符號等隱含重要信息的字段。不同的文本挖掘需求可以采用一種或多種方法融合表示。

2.3 電力數據挖掘方法

電力文本在經(jīng)過(guò)預處理與表示環(huán)節后,轉化為計算機可以處理的結構化數據,從而可以利用結構化數據挖掘方法進(jìn)行數據挖掘。數據挖掘方法有很多,常見(jiàn)的有各種機器學(xué)習方法。

基于機器學(xué)習方法,可以根據學(xué)習模式將機器學(xué)習分為有監督學(xué)習、無(wú)監督學(xué)習、半監督學(xué)習,是否有監督取決于訓練數據是否有標注,有標注的文本可以應用于分類(lèi)問(wèn)題,無(wú)標注的文本可以應用于聚類(lèi)問(wèn)題。根據學(xué)習方法,又可以將機器學(xué)習分為傳統機器學(xué)習和深度學(xué)習等[17]。傳統機器學(xué)習算法有邏輯回歸、隱馬爾科夫方法、支持向量機方法、K近鄰方法、貝葉斯方法以及決策樹(shù)方法等;深度學(xué)習算法有深度置信網(wǎng)絡(luò )、卷積神經(jīng)網(wǎng)絡(luò )、受限玻爾茲曼機和循環(huán)神經(jīng)網(wǎng)絡(luò )等。其中,由循環(huán)神經(jīng)網(wǎng)絡(luò )變種而來(lái)的長(cháng)短時(shí)記憶網(wǎng)絡(luò ),由于加入了長(cháng)期記憶機制,在處理長(cháng)序列時(shí)具有優(yōu)勢,因而適用于長(cháng)文本的挖掘。

3 文本挖掘技術(shù)在電力缺陷文本中的應用

3.1 電力缺陷文本的特點(diǎn)及挖掘需求

在電力文本挖掘領(lǐng)域,已有一些針對電力缺陷文本的應用。電力缺陷文本來(lái)自于電網(wǎng)企業(yè)日常運維記錄,一般包括計算機可直接處理的格式規范、語(yǔ)義清晰的內容,如缺陷設備編號、名稱(chēng)、缺陷發(fā)現時(shí)間、缺陷等級等;也包括計算機難以理解的文本,主要為缺陷詳細描述,如“2號主變冷卻器風(fēng)扇有異響”“有載分接開(kāi)關(guān)呼吸器硅膠變色2/3以上”。缺陷描述由現場(chǎng)工作人員記錄,可能存在一些不規范或錯誤需要進(jìn)行更正。此外,缺陷描述包含的內容通常較為豐富,一條文本可能包含多條缺陷信息,每一條缺陷信息包含著(zhù)缺陷發(fā)生部件、現象及程度等缺陷特征,因此需要進(jìn)行缺陷分離、特征抽取、關(guān)系挖掘等研究。圖1示例了缺陷文本挖掘的幾種典型應用。

圖1 缺陷文本挖掘典型應用

3.2 缺陷文本錯誤識別與質(zhì)量提升

缺陷文本常常存在各種原因造成的質(zhì)量問(wèn)題,如描述不完整、有歧義等,若將這些存在質(zhì)量問(wèn)題的記錄作為有效文本進(jìn)行挖掘,會(huì )造成挖掘結果偏差。因此需采用適當的方法對缺陷文本進(jìn)行質(zhì)量評價(jià),對質(zhì)量較差的歷史文本進(jìn)行質(zhì)量提升,對新錄入文本給出改進(jìn)建議,從源頭上保證文本質(zhì)量,對確保后續文本挖掘效果具有重要意義。

邵冠宇等進(jìn)行了卓有成效的研究[18]。通過(guò)對大量實(shí)際缺陷文本的分析,首先總結出電網(wǎng)設備缺陷文本容易出現的不完整、不具體、冗余度過(guò)高等問(wèn)題。然后,定義了缺陷文本質(zhì)量的評價(jià)指標,并提出了基于“層次-自適應灰色關(guān)聯(lián)分析法”的評價(jià)方法。接著(zhù),基于潛在狄利克雷分布方法,結合國家電網(wǎng)公司的缺陷分類(lèi)標準修正文本。針對新錄入文本,利用文本質(zhì)量評價(jià)方法進(jìn)行質(zhì)量問(wèn)題提示,利用詞向量映射方法給出修正建議,保證新錄入缺陷文本的質(zhì)量。其算例表明,歷史缺陷文本在修正后其文本質(zhì)量得分有較大提升,新錄入文本存在的質(zhì)量問(wèn)題能被準確識別并給出修正建議。

劉梓權等則提出了基于知識圖譜的缺陷文本錯誤識別方法[19]。首先利用現有電力設備缺陷記錄語(yǔ)料庫,通過(guò)實(shí)體抽取、屬性抽取、共指消解、關(guān)系抽取、關(guān)系篩選等步驟,構建出電力設備缺陷知識圖譜;然后基于缺陷知識圖譜,采用圖搜索方法識別不同類(lèi)型的缺陷文本錯誤并給出提示;最后通過(guò)算例分析表明,基于知識圖譜的缺陷文本錯誤識別方法各項評估指標均優(yōu)于其他人工智能學(xué)習方法,并且運行效率能滿(mǎn)足工程應用。

3.3 缺陷嚴重等級自動(dòng)分類(lèi)

電力設備缺陷的嚴重程度常分為緊急、嚴重、一般3類(lèi),不同等級缺陷有不同的消缺時(shí)間要求,因此缺陷文本的準確分類(lèi)非常重要。人工對缺陷文本進(jìn)行嚴重等級分類(lèi),不僅效率低,而且由于主觀(guān)因素和經(jīng)驗差異,準確性難以保障。

文獻[20]基于one-hot詞袋模型,實(shí)現了文本的向量化,然后基于KNN(自主區間搜索K最近鄰)算法,將待歸類(lèi)的缺陷文本與缺陷文本庫中已歸類(lèi)的缺陷文本進(jìn)行對比,找到最相近的文本,然后將待歸類(lèi)文本歸入最接近文本的一類(lèi)。算例驗證了基于KNN算法對文本進(jìn)行分類(lèi)的可行性。

文獻[21]則提出了基于卷積神經(jīng)網(wǎng)絡(luò )的電力設備缺陷文本分類(lèi)模型。首先以大量經(jīng)過(guò)文本預處理的電力設備缺陷文本為語(yǔ)料庫,訓練出每個(gè)詞的詞向量表示,詞向量的各個(gè)維度代表通過(guò)神經(jīng)網(wǎng)絡(luò )語(yǔ)言模型學(xué)習到的詞的語(yǔ)義特征。然后參考電力設備用語(yǔ)規范,對同義詞的詞向量進(jìn)行合并。接下來(lái)構建卷積神經(jīng)網(wǎng)絡(luò )分類(lèi)器,以準確標注缺陷等級的文本為訓練數據,構建以缺陷文本為輸入、以分類(lèi)等級結果為輸出的電力缺陷文本分類(lèi)模型。算例展示了該模型在分類(lèi)效果上的顯著(zhù)優(yōu)勢,為電力文本分類(lèi)提供了有效手段。

3.4 缺陷文本智能檢索

目前,缺陷處理工作依賴(lài)于工作人員的知識與經(jīng)驗。如果可以通過(guò)檢索找到相同缺陷情況的歷史記錄,就可以借鑒前人的經(jīng)驗,參考以往的處理方法對該缺陷進(jìn)行相應處理,這在實(shí)際缺陷管理中,尤其是對于知識和經(jīng)驗相對不足的人員有著(zhù)重要的指導意義。

劉梓權等在已構建的電力設備缺陷知識圖譜基礎上,利用圖搜索技術(shù)實(shí)現了電力設備缺陷文本的檢索[16]。算例對比了基于知識圖譜的缺陷記錄檢索方法與傳統機器學(xué)習語(yǔ)義分析方法的檢索效果,表明基于知識圖譜的檢索方法準確性更好。

3.5 缺陷文本中的缺陷細節提取

缺陷文本包含對缺陷細節的描述,如何提取這些細節、進(jìn)而統計分析發(fā)現缺陷規律是一個(gè)重要的問(wèn)題。

曹靖等通過(guò)建立缺陷文本語(yǔ)義框架,實(shí)現了缺陷細節的提取,為電力設備缺陷的精細化統計分析提供了技術(shù)手段[15]。缺陷文本的語(yǔ)義框架由大部件、小部件、屬性、程度4個(gè)語(yǔ)義槽構成,在進(jìn)行缺陷文本的槽填充過(guò)程中記錄詞位信息,然后在構建語(yǔ)義框架時(shí)根據詞位信息計算路徑距離,并區分核心詞是小部件或屬性,選擇不同方向的最小路徑距離進(jìn)行槽匹配,最后經(jīng)詞串合并實(shí)現最終的語(yǔ)義框架。由于缺陷細節即為語(yǔ)義框架中的語(yǔ)義槽,因此可對挖掘出的缺陷細節進(jìn)行統計分析。

3.6 缺陷文本的健康狀態(tài)自動(dòng)評價(jià)

電力設備缺陷文本蘊藏著(zhù)設備健康既往史,對客觀(guān)評價(jià)設備健康狀態(tài)發(fā)展過(guò)程大有用處。

邱劍等以斷路器為例提出通過(guò)缺陷文本挖掘把缺陷等級融入基于狀態(tài)監測數據的狀態(tài)評價(jià)模型中,建立了比率型全壽命狀態(tài)評價(jià)模型[14]。其中,缺陷等級分類(lèi)采用基于KNN算法的文本分類(lèi)方法;比率型狀態(tài)信息融合模型可實(shí)現斷路器全壽命健康狀態(tài)的展示,對于電力設備狀態(tài)評價(jià)與全壽命健康管理有重要作用。

既然可以把缺陷嚴重程度分類(lèi)結果融入健康狀態(tài)評價(jià)模型,那么也可更進(jìn)一步從句子結構和語(yǔ)義的角度對缺陷文本進(jìn)行深入挖掘,通過(guò)對比缺陷描述與標準導則,給出缺陷文本當時(shí)場(chǎng)景下的設備健康得分,這樣設備既往史融入健康狀態(tài)評價(jià)的科學(xué)性會(huì )大大提高。但是,實(shí)際缺陷文本與標準導則之間的自動(dòng)準確匹配仍是一個(gè)難題,對比文本相似度的準確度不夠高,采用知識圖譜技術(shù),或者利用依存句法分析,將缺陷描述轉化為樹(shù)形結構,基于樹(shù)匹配算法與導則進(jìn)行比較,從而得到健康指數分值,是正在研究的解決辦法。

3.7 缺陷文本挖掘的啟發(fā)

上述電力缺陷文本的挖掘研究提供了以下啟發(fā):

(1)電力文本種類(lèi)多,文本挖掘技術(shù)手段也多,需根據文本特點(diǎn)及挖掘需求研究適合的挖掘方法。

(2)文本挖掘效果與文本本身質(zhì)量、本體字典質(zhì)量有重大關(guān)系,因此應通過(guò)管理和技術(shù)手段保證電力文本質(zhì)量,并建立完善的電力本體字典。

(3)文本數據是電力大數據中的一種模態(tài),需結合其他模態(tài)數據的挖掘成果,融合起來(lái)才能發(fā)揮更大的作用。

4 電力文本挖掘面臨的挑戰

4.1 電力本體字典的構建

電力本體字典的構建是電力領(lǐng)域文本挖掘的基礎工作。本體字典蘊含了電力領(lǐng)域最基本的知識,其質(zhì)量與數量不僅決定著(zhù)文本預處理中分詞、詞性標注等的準確性,也影響著(zhù)消除歧義、構建知識圖譜等工作,是電力文本挖掘中最根本的知識庫。

電力本體字典的構建是個(gè)難題。一方面,電力領(lǐng)域相關(guān)術(shù)語(yǔ)的數量非常龐大,僅名詞類(lèi)詞匯就有近萬(wàn)個(gè)。另一方面,電力領(lǐng)域分支眾多,在不同分支領(lǐng)域有不同的專(zhuān)業(yè)詞匯、俗稱(chēng)及表達習慣等,比如GIS在設備層面是指氣體絕緣組合電器,而在電網(wǎng)層面則是指地理信息系統。然而,電力領(lǐng)域畢竟是一個(gè)確定的封閉域,雖然困難,但只要電力領(lǐng)域科研工作者共同努力,不斷豐富完善,高質(zhì)量的電力本體字典建設是可以實(shí)現的。

4.2 電力知識圖譜的構建與應用

劉梓權等雖然已經(jīng)對電力知識圖譜的構建進(jìn)行了技術(shù)路線(xiàn)探索與驗證[16],但僅限于變壓器的缺陷文本。從整個(gè)電力領(lǐng)域看,電力知識圖譜還缺乏頂層設計,因此還具有巨大的發(fā)展潛力。

在已實(shí)踐的電力知識圖譜構建過(guò)程中,基于本體字典進(jìn)行實(shí)體識別,準確率較高;但在關(guān)系抽取中,如何定義電力實(shí)體間的關(guān)系類(lèi)型,做到不冗余、不缺漏,又滿(mǎn)足挖掘需求,是需要不斷實(shí)踐與總結的。此外,還有尚未實(shí)踐的知識圖譜領(lǐng)域更深層次問(wèn)題,比如:如何根據已有實(shí)體屬性與實(shí)體間的關(guān)系,推理得到新的屬性或者關(guān)系,這對于電力知識圖譜的智能化運用非常關(guān)鍵;如何將各種電力知識表示成“實(shí)體-關(guān)系-實(shí)體”三元組,是一個(gè)富有挑戰性的問(wèn)題;是不是可以打破這種知識表示的限制,創(chuàng )造更多的知識表示的方法,更是一個(gè)關(guān)系電力知識圖譜架構本身的值得研究的問(wèn)題。

目前大規模知識圖譜的應用還比較有限,領(lǐng)域內的知識圖譜更是如此。如何有效實(shí)現電力知識圖譜的應用,提高大規模知識圖譜計算效率,不僅需要研究人員探索相關(guān)技術(shù),還需要發(fā)掘合適的應用場(chǎng)景進(jìn)行示范。例如,在電力設備運維管理的智能查詢(xún)、策略推送方面,知識圖譜技術(shù)可望有所作為。

4.3 多模態(tài)數據融合挖掘提升應用價(jià)值

前文介紹的各種文本挖掘應用雖已能解決一小部分淺層次的問(wèn)題,然而要獲得更深層次的應用,需進(jìn)行多模態(tài)數據融合挖掘研究。數據融合是數據挖掘的研究分支之一。除常見(jiàn)的結構化數據外,還有文本、圖像、視頻、波形等多種模態(tài)的非結構化數據。目前開(kāi)展較多的是結構化數據之間的融合研究,如多傳感器監測數據融合的故障診斷研究,但還缺乏多模態(tài)數據融合研究。以電力設備健康狀態(tài)評估為例,若通過(guò)對歷史缺陷文本的缺陷細節挖掘,獲得電力設備缺陷發(fā)生的深層次規律,指導設備進(jìn)行測試性設計,獲得更有效的各種模態(tài)監測數據,再加上挖掘的設備既往史,則能更全面準確地評估設備的健康狀態(tài)。因此電力文本數據挖掘與其他模態(tài)數據融合挖掘能提升工程應用價(jià)值。

5 結語(yǔ)

近十多年來(lái),自然語(yǔ)言處理技術(shù)發(fā)展迅速,促使機器能夠在一定程度上“理解”文本。但是,電力是個(gè)專(zhuān)業(yè)性非常強的行業(yè),且對文本挖掘模型的準確性和可靠性要求高,需要研究者同時(shí)具備電力領(lǐng)域知識和文本挖掘經(jīng)驗,才能結合適應性改進(jìn)和自主創(chuàng )新,建立起符合電力文本特點(diǎn)和應用要求的文本挖掘技術(shù)體系。

目前,電力文本數據挖掘研究已引起重視,但還面臨著(zhù)挖掘需求不明確、挖掘效果難以達到預期的困擾,已取得的研究成果還遠遠不足以支持智能電網(wǎng)和資產(chǎn)管理的發(fā)展,因此迫切需要有文本挖掘應用成果來(lái)示范和引領(lǐng),啟發(fā)出更多的電力文本挖掘需求,吸引更多人員參與電力文本挖掘技術(shù)及應用的研究中,促進(jìn)電力文本挖掘理論與工程應用的蓬勃發(fā)展。

參考文獻:(略)

基金項目:國網(wǎng)浙江省電力有限公司群創(chuàng )項目(5211ZS180011)

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
AI研習丨CAAI副秘書(shū)長(cháng)何清研究員:大數據挖掘與知識發(fā)現
基于知識圖譜構建5G協(xié)議知識庫
知識圖譜概論(二):概念具象化描述
知識圖譜的系統工程觀(guān)
知識圖譜與認知智能
知識圖譜構建(概念,工具,實(shí)例調研)_知識圖譜的構建
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久