欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
百度文檔智能技術(shù)與應用

主要包括以下五個(gè)部分的內容:

1. 文檔智能技術(shù)簡(jiǎn)介

2. 文檔智能大模型 ERNIE-Layout

3. 開(kāi)放文檔抽取問(wèn)答模型 DocPrompt

4. 文檔布局與表格理解技術(shù)介紹

5. PaddleNLP 文檔智能技術(shù)開(kāi)源與應用案例


分享嘉賓|胡騰 百度 資深研發(fā)工程師

編輯整理|張存旺 北航杭州創(chuàng )新研究院

出品社區|DataFun


01

文檔智能技術(shù)簡(jiǎn)介

首先介紹一下文檔智能技術(shù)的背景。

1. 文檔智能技術(shù)做什么?

當前有很多行業(yè)在朝著(zhù)數字智能化的方向發(fā)展,在業(yè)務(wù)流程中會(huì )遇到各種各樣的電子文檔處理需求,比如個(gè)人簡(jiǎn)歷、企業(yè)財報、合同文書(shū)、報銷(xiāo)票據等常見(jiàn)的文檔,也有保理登記、法律文書(shū)、海關(guān)文件、病歷文檔等專(zhuān)業(yè)文檔。

而文檔智能技術(shù)則是為了實(shí)現對這些文檔進(jìn)行自動(dòng)閱讀、理解以及分析的一系列技術(shù)方案,具體包括文檔內容解析、預訓練與文檔表示、布局分析、文檔抽取問(wèn)答、分類(lèi)聚類(lèi)以及內容比對等。通過(guò)這些文檔智能技術(shù)可以實(shí)現各種文檔場(chǎng)景的智慧應用。

2. 文檔智能技術(shù)的挑戰與方案

在技術(shù)實(shí)現上,進(jìn)入預訓練時(shí)代之后的文檔智能技術(shù)一般處理流程是:首先輸入各種類(lèi)型的文檔,經(jīng)過(guò)不同類(lèi)型的解析器來(lái)讀取到各種形態(tài)的文檔內容,比如文本、布局、表格、圖像等,然后根據不同的任務(wù)來(lái)選擇合適的預訓練模型,通過(guò)一定量的標注數據進(jìn)行微調,最后產(chǎn)出所需要的文檔智能應用模型。

在這一過(guò)程中會(huì )遇到多重挑戰首先是文檔格式繁雜、版式豐富,比如常見(jiàn)的 Word、PDF 和掃描文件,在一些國產(chǎn)化項目中還會(huì )遇到大量的 WPS、OFD 文檔,所以在文檔讀取的時(shí)候需要對接一系列的解析器來(lái)實(shí)現,這大大增加了下游任務(wù)適配的復雜度;其次,文檔內容的信息模態(tài)多樣化,有段落文本信息、空間布局信息、結構化表格信息、圖像信息等,這么多的特征維度增加了下游任務(wù)預訓練模型的選取難度;此外,在文檔智能的商業(yè)化應用場(chǎng)景中,經(jīng)常會(huì )面臨需求開(kāi)放、業(yè)務(wù)數據少的問(wèn)題,通常一家公司需要處理的文檔類(lèi)型比較多,但是由于數據敏感、標注難度大,可以獲取到的真實(shí)數據往往很少甚至沒(méi)有,這樣就大大提高了技術(shù)落地的適配難度。

針對以上問(wèn)題,我們形成了一些解決方案:

(1)首先針對文檔格式繁雜的問(wèn)題,我們采用集成的解析方案,通過(guò)統一文檔的表示形式和接口來(lái)降低下游任務(wù)的適配復雜度,同時(shí)也通過(guò)不同格式文檔之間的轉換來(lái)增加文檔特征的類(lèi)型。

(2)針對文檔內容模態(tài)多樣化問(wèn)題,我們通過(guò)最新的跨模態(tài)預訓練技術(shù)來(lái)融合不同模態(tài)的特征,既可以避免預訓練模型的選擇難度,也可以提升多模態(tài)特征的下游任務(wù)效果。

(3)最后針對需求開(kāi)放、業(yè)務(wù)數據少的問(wèn)題,通過(guò)大規模開(kāi)放場(chǎng)景下的多階段多任務(wù)融合訓練來(lái)實(shí)現模型零樣本和小樣本的能力,進(jìn)一步降低場(chǎng)景化適配成本。

3. 百度文檔智能技術(shù)體系

從整體來(lái)看,目前百度文檔智能體系可以分為以下幾個(gè)層次:

(1)底層框架采用飛槳。

(2)基礎模型庫與開(kāi)發(fā)套件主要有:文本智能處理模型以及套件 PaddleNLP,文字識別套件 PaddleOCR,通用語(yǔ)言大模型 ERNIE 以及通用視覺(jué)大模型 VIMER。

(3)文檔智能核心技術(shù)主要分為兩部分:一部分是基于多語(yǔ)言跨模態(tài)布局增強的文檔智能大模型 ERNIE-Layout 的一系列文檔理解與分析技術(shù),包括文檔表格理解、開(kāi)放文檔抽取問(wèn)答、文檔布局分析等技術(shù);另一部分是基于 OCR 識別與結構化大模型的辦公文檔識別技術(shù)。

(4)應用平臺:主要支撐百度云的兩個(gè)平臺產(chǎn)品,包括智能文檔分析平臺 TextMind 以及圖像文檔結構化平臺 EasyDL OCR。

今天主要圍繞基于 ERNIE-Layout 的文檔理解與分析技術(shù)展開(kāi)。

4. 百度文檔智能技術(shù)指標

從整體的技術(shù)指標上來(lái)看,基于 ERNIE-Layout 的文檔智能技術(shù)方案在文檔抽取問(wèn)答、網(wǎng)頁(yè)問(wèn)答、布局理解以及表格理解方面共 11 項權威文檔智能任務(wù)上達到了 SOTA,而且整體提升大概 4 個(gè) PP,可以為文檔智能應用提供一套全方位能力的核心技術(shù)體系。

最近一年多,百度文檔智能在視覺(jué)文檔理解能力上持續提升,多次登頂視覺(jué)文檔問(wèn)答權威榜單 DocVQA,成為當前榜單上首個(gè)突破 90 分大關(guān)的技術(shù)方案;此外,首次以通用文檔智能模型在網(wǎng)頁(yè)垂類(lèi)場(chǎng)景下也超越網(wǎng)頁(yè)預訓練模型,登頂 WebSRC 的榜單,也說(shuō)明通用文檔智能模型具備了比較強的場(chǎng)景適應能力。

--

02

文檔智能大模型 ERNIE-Layout

下面介紹多語(yǔ)言跨模態(tài)布局增強文檔智能大模型 ERNIE-Layout 的相關(guān)技術(shù)方案。

1. ERNIE-Layout 文檔預訓練方案

ERNIE-Layout 文檔預訓練方案融合了文本、布局、圖像特征。從流程上看,輸入的視覺(jué)文檔首先通過(guò)兩路特征:左側是文本特征,通過(guò) OCR 讀取出文字和位置布局,經(jīng)過(guò)序列化模型和預訓練語(yǔ)言模型的預處理得到文本的 token 特征;右側圖像部分通過(guò)圖像編碼,主要是等比分割和序列化映射等得到序列化圖像的 token 特征。然后將文本和圖像特征進(jìn)行融合,融合一維和二維的編碼拼接在一起,往上通過(guò)一系列的 Transformer 層實(shí)現特征交互,最后通過(guò)一系列的預訓練任務(wù)讓模型學(xué)會(huì )并理解和對齊文本語(yǔ)義、空間布局語(yǔ)義和圖像語(yǔ)義。

與之前的一些工作相比,ERNIE-Layout 的主要技術(shù)特點(diǎn)包括:第一次在預訓練方面,基于視覺(jué)語(yǔ)言掩碼模型 MLVM 以及涂膜覆蓋預測 TIA 新增了閱讀順序預測任務(wù) ROP 以及替換區域預測任務(wù) RRP,其中閱讀順序預測任務(wù)主要是通過(guò)預測文本側 token 的閱讀順序來(lái)強化模型對布局位置和文本閱讀順序的理解;圖像替換區域預測人物則是用于強化細粒度文本圖像的對齊能力,像是 TIA 的一個(gè)對稱(chēng)任務(wù),TIA 是從文本側預測文本 token 對應的圖像是否被涂抹的任務(wù),而 RRP 則是從圖像測來(lái)預測圖像 token 對應的區域是否被隨機替換,相比于傳統的涂抹覆蓋,隨機替換會(huì )增加預訓練任務(wù)的難度。

第二個(gè)技術(shù)特點(diǎn)是在模型結構上,我們提出了空間解耦的注意力機制,將圖文內容與一維、二維空間位置注意力進(jìn)行解耦。其中,二維空間位置進(jìn)一步解耦為 X 軸和 Y 軸兩個(gè)方向的注意力,這樣可以進(jìn)一步提升模型的空間位置理解能力。

其次,在語(yǔ)言模型的初始化上,我們基于多語(yǔ)言模型 ERNIE-M,支持 96 種語(yǔ)言的理解;在文本側的輸入上我們引入了布局知識增強的機制,通過(guò)布局理解能力的訓練化模塊進(jìn)行布局理解和文本重排,可以大幅度降低復雜文檔的序列化文本 PPL(困惑度),這樣可以提升語(yǔ)言模型的訓練效果。

最后開(kāi)源 ERNIE-Layout 的訓練規模上包含了來(lái)自 IIT-CDIP 的 1000 萬(wàn)英文文檔頁(yè)面以及來(lái)自百度文庫的 1000 萬(wàn)中文文檔頁(yè)面。

從下游任務(wù)的實(shí)驗結果上來(lái)看,ERNIE-Layout 在文檔抽取任務(wù)、文檔問(wèn)答任務(wù)以及文檔分類(lèi)任務(wù)上都能達到 SOTA 效果;從消融實(shí)驗結果來(lái)看,布局知識增強、ROP 和 RRP 訓練任務(wù)以及空間解耦注意力機制都能帶來(lái)穩定的收益。

2. mmLayout 文檔圖表示技術(shù)方案

這部分以一個(gè)具體的文檔理解任務(wù)來(lái)觀(guān)察模型和人分別是怎么理解一個(gè)文檔的。例子來(lái)自于英文 FUNSD 文檔數據集,該場(chǎng)景需要從文檔中識別出標題、問(wèn)題、答案以及其他內容,這里的問(wèn)題和答案對應抽取任務(wù)中的鍵值對。以 ERNIE-Layout 模型作為底座,那么輸入的文檔會(huì )被表示成細粒度的文本特征以及圖像切片特征,通過(guò)這些細粒度的特征編碼標識來(lái)進(jìn)一步支撐下游的文檔理解任務(wù)。

但是從人的視角來(lái)講,在語(yǔ)言上會(huì )優(yōu)先注意到具有特定語(yǔ)義的連續自然語(yǔ)言片段,比如標題、日期和傳真號碼;在視覺(jué)上會(huì )先將注意力集中到具有明顯特征的視覺(jué)區域,比如上面的標題區域、中間的段落區域以及下面的列表區域,通常這些區域內部的文本內容更具有密切的相關(guān)性。所以我們發(fā)現模型和人類(lèi)會(huì )通過(guò)不同特征粒度來(lái)完成文檔理解任務(wù),不難想到可以通過(guò)建立模型視角和人的視角之間的聯(lián)系來(lái)提升模型的效果。

基于以上的分析,我們提出了一種多粒度的跨模態(tài)文檔圖表示技術(shù)來(lái)建立跨粒度跨模態(tài)的特征聯(lián)系。具體地,首先來(lái)看怎么建立文檔圖結構,這里的文檔圖結構包括細粒度的文本和粗粒度的文本,以及細粒度的圖像和粗粒度的圖像四種節點(diǎn)類(lèi)型,其中細粒度的文本圖像節點(diǎn)就是 ERNIE-Layout 模型的輸出 token,模型的全連接層和注意力機制可以當作細粒度節點(diǎn)的特征編碼表示;粗粒度的文本節點(diǎn)以 OCR 輸出的文本粒度為準,粗粒度的圖像節點(diǎn)以 OCR 識別的片段區域經(jīng)過(guò) DBSCAN 的聚類(lèi)機制進(jìn)行拼接所得。

通過(guò)細粒度節點(diǎn)和粗粒度節點(diǎn)之間的包含關(guān)系,可以建立跨粒度的編碼特征。有了細粒度的特征以及跨粒度的邊之后,通過(guò)文檔圖的特征聚合來(lái)將細粒度的特征聚合到粗粒度的特征表示上。這里需要注意的一點(diǎn)是避免以直接相加的方式聚合到粗粒度文本上,因為這樣會(huì )導致粗粒度文本特征產(chǎn)生混淆,所以我們引入了一個(gè)常識增強的機制,在聚合的同時(shí)會(huì )區分不同細粒度的常識特征,因此可以通過(guò)學(xué)習細粒度的常識編碼來(lái)作為聚合的一個(gè)偏置項,這樣可以調整不同細粒度特征在聚合過(guò)程中的權重。

再往上一層的粗粒度特征編碼表示采用的是一個(gè)標準的 Transformer 結構,其中的全連接層可以當作粗粒度節點(diǎn)之間的一個(gè)邊。之后在跨粒度特征融合階段再將粗粒度特征反向融合到細粒度特征,最終以細粒度的特征來(lái)支撐下游任務(wù)的應用。之所以反向融合是因為在大部分下游文檔理解任務(wù)上都是基于細粒度的 token 訓練來(lái)實(shí)現的。

所以整體的思路是先將細粒度特征通過(guò)跨粒度的邊進(jìn)行特征融合,然后再將粗粒度特征反向融合到細粒度特癥,從而實(shí)現跨模態(tài)跨粒度的文檔圖表示。

通過(guò)在預訓練語(yǔ)言模型基礎上引入文檔圖表示技術(shù),可以發(fā)現基于 mmLayout 的 base 模型,文檔圖的表示在抽取任務(wù)上效果可以超過(guò)大部分不帶圖結構的預訓練模型的 large 版本。更重要的一點(diǎn)是通過(guò)對比實(shí)驗可以發(fā)現一層的 Transformer 結構的粗粒度編碼層即可以使模型效果得到大幅度提升,甚至超過(guò) large 模型。從模型大小上來(lái)看,比 base 模型提升不到 5%,不到 large 模型的一半。從消融實(shí)驗來(lái)看,跨粒度的特征融合和聚合、粗粒度的特征編碼以及基于文本常識增強的機制均可以帶來(lái)穩定收益。

--

03

開(kāi)放文檔抽取問(wèn)答模型 DocPrompt

接下來(lái)介紹一個(gè)基于 ERNIE-Layout 的應用,開(kāi)放文檔抽取問(wèn)答模型 DocPrompt。

1. Prompt 式開(kāi)放文檔抽取問(wèn)答

首先,DocPrompt 是一種基于 Prompt 范式的開(kāi)放文檔抽取問(wèn)答技術(shù)方案。Prompt 范式的優(yōu)點(diǎn):第一是和傳統的 NER 抽取模型不一樣,沒(méi)有固定的 Schema 或者標簽集合,可以支持開(kāi)放場(chǎng)景的訓練,實(shí)現零樣本抽取問(wèn)答的能力;第二是比較容易和自監督的預訓練任務(wù)對齊,這樣可以通過(guò)持續的多階段訓練在場(chǎng)景遷移的過(guò)程中提升小樣本的能力;第三點(diǎn)是 Prompt 的表述形式比較靈活,可以是抽取問(wèn)題的字段名、問(wèn)答任務(wù)的問(wèn)題、分類(lèi)任務(wù)的類(lèi)別列表等等,非常便于實(shí)現多任務(wù)的統一建模。

本次開(kāi)放的 DocPrompt 主要實(shí)現的是文檔抽取和文檔問(wèn)答任務(wù)的統一建模,基于 ERNIE-Layout 預訓練模型通過(guò)大規模多任務(wù)開(kāi)放場(chǎng)景的抽取問(wèn)答預訓練實(shí)現通用場(chǎng)景零樣本以及小樣本抽取能力。

這里以一個(gè)法律判決書(shū)的信息抽取問(wèn)答能力為例,在模型沒(méi)有見(jiàn)過(guò)任何內置文檔的前提下是可以直接完成大部分的抽取和問(wèn)答任務(wù)的。如果模型在某些字段上抽取效果不符合預期,還可以通過(guò)小樣本機制來(lái)進(jìn)行效果優(yōu)化。

2. 文檔抽取問(wèn)答場(chǎng)景示例

接下來(lái)通過(guò)幾個(gè)文檔抽取問(wèn)答特殊示例來(lái)看看 DocPrompt 到底具備哪些文檔理解能力。

這里是一個(gè)票據文檔的抽取問(wèn)答。第一個(gè)問(wèn)題是“票據的具體名稱(chēng)是什么”,其實(shí)是需要模型理解票據的中間抬頭部分和字體突出部分,這部分是票據的名稱(chēng);第二個(gè)問(wèn)題是“右上方的數字是什么?”,需要模型能夠將問(wèn)題中的空間方位值的語(yǔ)義和文檔空間位置對應上;第三個(gè)問(wèn)題是“第一個(gè)收費項目是啥?”,需要模型理解語(yǔ)義和空間位置的順序關(guān)系。從這三個(gè)問(wèn)題回答來(lái)看,說(shuō)明 DocPrompt 是具備一定空間方位語(yǔ)義理解能力的。

第二個(gè)示例是一個(gè)文檔表格抽取問(wèn)答示例,是一個(gè)多維的文檔表格??梢钥吹?,針對 3 個(gè)不同位置的多維度問(wèn)題,DocPrompt 都能給出準確的答案,說(shuō)明 DocPrompt 是具備多維表格語(yǔ)義理解能力的。

第三個(gè)示例是一個(gè)富文檔的抽取問(wèn)答,這里面的海報中有大量的圖像和 LOGO,文本的字體變化也很大,排版非常復雜。第一個(gè)問(wèn)題是“使訪(fǎng)問(wèn)者能夠管理關(guān)鍵信息的關(guān)鍵設計參考因素是什么?”,回答這個(gè)問(wèn)題需要模型能夠理解復雜視覺(jué)區域之間的邏輯關(guān)系,因為可以看到答案的提示信息分布在不同的布局區域。第二個(gè)問(wèn)題是“哪個(gè)質(zhì)量組的組件中有'筆’的圖標”,可以看到文章中是存在一個(gè)'筆’的 LOGO 的,那么要回答這個(gè)問(wèn)題就需要模型能夠對齊文本語(yǔ)義和圖像語(yǔ)義。通過(guò)這個(gè)例子可以說(shuō)明 DocPrompt 是具備圖像語(yǔ)義理解能力的。

第四個(gè)示例是針對常見(jiàn)網(wǎng)頁(yè)布局的抽取問(wèn)答。這里面我們沒(méi)有用到網(wǎng)頁(yè)的半結構化信息,主要是基于網(wǎng)頁(yè)的視覺(jué)和內容文本特征來(lái)很好地完成不同布局位點(diǎn)的信息抽取。說(shuō)明在脫離網(wǎng)頁(yè)半結構化信息標簽的條件下,DocPrompt 是具備網(wǎng)頁(yè)布局的語(yǔ)義理解能力的。

第五個(gè)例子是一個(gè)病例長(cháng)文本文檔的抽取問(wèn)答,來(lái)自于一個(gè)新聞網(wǎng)站的公開(kāi)病例。第一個(gè)問(wèn)題是“患者為什么上臂疼痛?”,答案其實(shí)是一個(gè)具有因果關(guān)系的完整句子;最后一個(gè)問(wèn)題是“醫生健康指導”,答案是一個(gè)相關(guān)區域整個(gè)段落文本;第二個(gè)和第三個(gè)問(wèn)題是抽取階段,患者體溫以及初步診斷結論都是具備一定專(zhuān)業(yè)性的屬于抽取。從這個(gè)例子可以說(shuō)明 DocPrompt 具備良好的長(cháng)文文本語(yǔ)義理解和領(lǐng)域遷移能力。

最后一個(gè)示例是一個(gè)跨語(yǔ)種的抽取問(wèn)答,針對一張商戶(hù)小票分別采用中文、英語(yǔ)、日語(yǔ)、泰語(yǔ)、西班牙語(yǔ)和俄語(yǔ) 6 種語(yǔ)言進(jìn)行提問(wèn)“商戶(hù)的電話(huà)號碼是什么?”,模型都能給出相同并且正確的答案,說(shuō)明 DocPrompt 具備較強的跨語(yǔ)種語(yǔ)義理解能力。

以上這些例子,大家感興趣的話(huà)可以通過(guò) Huggingface 搜索 ERENIE-Layout 的空間來(lái)體驗。

--

04

文檔布局與表格理解技術(shù)

接下來(lái)介紹基于跨模態(tài)文檔布局與表格理解技術(shù)方案。

1. 文檔布局與表格理解任務(wù)流程

文檔布局與表格理解任務(wù)流程上一般分為三步,第一步是布局要素的識別,主要是識別文檔頁(yè)面的標題、段落、列表、圖片等布局元素;第二步是是閱讀順序,將頁(yè)面內的布局元素按照閱讀順序進(jìn)行重排,這個(gè)流程可以大幅度降低 OCR 文本結果的 PPL,可以提升下游任務(wù)的效果;第三個(gè)任務(wù)是布局要素關(guān)聯(lián),主要用來(lái)構建比如層級化的標題關(guān)系、圖表和對應標題的關(guān)系以及一些跨頁(yè)跨欄的布局要素關(guān)系。

2. 文檔布局與表格理解技術(shù)方案

技術(shù)實(shí)現方案上,不同的布局識別任務(wù)也會(huì )依賴(lài)不同的模態(tài)特征,在跨模態(tài)技術(shù)成熟之前通常會(huì )通過(guò)不同的模型來(lái)完成相應的任務(wù),比如圖表任務(wù)或者分欄任務(wù)一般視覺(jué)特征會(huì )優(yōu)于文本特征,所以會(huì )采用視覺(jué)方案;而標題或者段落識別任務(wù)中文本特征會(huì )優(yōu)于視覺(jué)特征,所以會(huì )采用文本方案;但是對于公式和列表,我們發(fā)現圖像和文本的特征同等重要,所以會(huì )采用文本模型加上視覺(jué)后處理的混合方案。

在有了 ERNIE-Layout 之后,便可以通過(guò)跨模態(tài)多任務(wù)的形式來(lái)統一建模,實(shí)現多種布局類(lèi)型和表格理解的任務(wù)統一,將所有布局要素識別任務(wù)轉化為基于 ERNIE-Layout 的跨模態(tài)圖像特征編碼和基于 Transformer 的一個(gè)目標檢測任務(wù)。所有的閱讀順序和要素關(guān)聯(lián)任務(wù)可以轉化為布局元素之間的關(guān)系預測任務(wù)。

當前基于這一套跨模態(tài)的布局和表格理解技術(shù)方案,可以實(shí)現 14 種內置布局類(lèi)型的理解,也支持用戶(hù)持續標注和擴展自定義的類(lèi)型。表格理解任務(wù)上集成了表格檢測、還原與功能分析,從圖中例子可以看出支持一些復雜無(wú)框線(xiàn)表格的區域檢測以及合并單元格的識別,也支持表頭的識別,這樣可以做到整個(gè)表格的功能分析,進(jìn)而可以支持下一步的表格結構化。

目前基于 ERNIE-Layout 的跨模態(tài)文檔布局理解和表格理解技術(shù)方案在 PubTables1M、PubLayNet 以及 DocLayNetd 等多個(gè)數據集上都達到了 SOTA 效果,并且體現出了明顯的效果優(yōu)勢。

--

05

PaddleNLP 文檔智能技術(shù)開(kāi)源與應用案例

下面介紹一下基于 PaddleNLP 如何實(shí)現文檔智能技術(shù)的開(kāi)源接入,以及在一些具體行業(yè)上的應用案例。

1. PaddleNLP 文檔智能開(kāi)源功能快速接入

首先介紹一下文檔智能在 PaddleNLP 中的開(kāi)源情況,目前是開(kāi)放了 DocPrompt 的模型使用,大家既可以通過(guò) Huggingface 上的空間來(lái)進(jìn)行試用,也可以通過(guò) PaddleNLP 中的 TaskFlow 將模型拉到本地進(jìn)行使用。同時(shí) PaddleNLP 也是完全開(kāi)源了 ERNIE-Layout 底座模型和相關(guān)代碼,可以在 Github 上搜索 PaddleNLP,在倉庫中獲取。

本次開(kāi)放的 ERNIE-Layout 模型是多語(yǔ)言版本,目前支持 96 種語(yǔ)言,已經(jīng)落地中文、英文和日文的業(yè)務(wù)場(chǎng)景;模型效果上,目前在下游任務(wù)的平均效果優(yōu)于同級別的 LayoutLM Base 模型;同步開(kāi)源的還有 NER,CLS,MRC 基準任務(wù)的訓練調試代碼。

2. 應用案例介紹

接下來(lái)介紹幾個(gè)實(shí)際應用場(chǎng)景的案例。

第一個(gè)案例是智能報關(guān)系統,該系統基于通用的文檔表格抽取模型以及少量的數據定制,最終可以實(shí)現報關(guān)文檔 30 多個(gè)字段或者屬性的秒級別抽取,可以大幅度提升傳統報關(guān)單場(chǎng)景的單據錄入效率。

第二個(gè)案例是通用合同對比,主要是基于文檔布局解析以及通用合同抽取模型來(lái)實(shí)現不同粒度的布局類(lèi)型之間的內容對比,比如字符的比對、段落的比對和表格的比對,也可以基于抽取結果來(lái)指定比對的字段,比如比對兩份合同中的甲方名稱(chēng)是否一致。

第三個(gè)案例是通用合同審查場(chǎng)景,也是基于通用合同文檔抽取模型的抽取結果,結合相關(guān)的業(yè)務(wù)知識來(lái)實(shí)現一致性、完備性或者是合規性等業(yè)務(wù)邏輯審查。比如可以比較合同中的大寫(xiě)金額和小寫(xiě)金額是否一致、某些條款是否缺失、某某條款是否符合業(yè)務(wù)規范等。

上面三個(gè)案例的應用都可以通過(guò)百度云搜索等應用平臺來(lái)申請體驗。

以上就是今天所有的分享內容,謝謝大家。


|分享嘉賓|


|《數據智能知識地圖》下載|

上下滑動(dòng)????,查看《數據智能知識地圖》預訓練模塊,完整版請關(guān)注公眾號“大話(huà)數智下載


|DataFun新媒體矩陣|


|關(guān)于DataFun|

專(zhuān)注于大數據、人工智能技術(shù)應用的分享與交流。發(fā)起于2017年,在北京、上海、深圳、杭州等城市舉辦超過(guò)100+線(xiàn)下和100+線(xiàn)上沙龍、論壇及峰會(huì ),已邀請超過(guò)2000位專(zhuān)家和學(xué)者參與分享。其公眾號 DataFunTalk 累計生產(chǎn)原創(chuàng )文章900+,百萬(wàn)+閱讀,16萬(wàn)+精準粉絲。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
重磅!百度多模態(tài)模型ERNIE-ViL刷新5項任務(wù)記錄,登頂權威榜單VCR
【金猿技術(shù)展】文心ERNIE——基于知識增強的語(yǔ)義理解技術(shù)
基于知識圖譜的語(yǔ)義理解技術(shù)及應用
達摩院新一代人機對話(huà)技術(shù)體系及應用
西交、清華等發(fā)布多模態(tài)大模型,有望成為「DALL·E 4」技術(shù)路線(xiàn)?和AI一起「白日作夢(mèng)」
AI:大力出奇跡?Bigger is better?AI下一代浪潮?—人工智能的大語(yǔ)言模型(LLMs)的簡(jiǎn)介、發(fā)展以及未來(lái)趨勢
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久