��ҹ��Ʒ��1��2��,�þ��SM��Ȥ��

首頁動態資訊行(xing)業資訊

淺談智能文檔處理技術與應用

來(lai)源：易(yi)道博識發(fa)布時間：2023-04-26

智能文(wen)檔(dang)處理介紹

智能文(wen)檔處理（IDP）是(shi)利(li)用人工智能技(ji)術(shu)，自動從復雜的(de)(de)非結構(gou)(gou)(gou)化和半結構(gou)(gou)(gou)化文(wen)檔中抽取關(guan)鍵數(shu)(shu)據(ju)(ju)，并將其轉換(huan)成結構(gou)(gou)(gou)化數(shu)(shu)據(ju)(ju)的(de)(de)技(ji)術(shu)。IDP又稱為認知數(shu)(shu)據(ju)(ju)處理（Cognitive Data Processing）或智能數(shu)(shu)據(ju)(ju)捕(bu)獲（Intelligent Data Capturing）技(ji)術(shu)。

眾所周知(zhi)，商(shang)業(ye)(ye)(ye)數(shu)據(ju)是(shi)企(qi)業(ye)(ye)(ye)數(shu)字(zi)化轉(zhuan)型的(de)核心。然而，現(xian)實(shi)中80%的(de)商(shang)業(ye)(ye)(ye)數(shu)據(ju)都(dou)是(shi)非結(jie)構化格式，比如郵件、圖片和各種企(qi)業(ye)(ye)(ye)文檔，其中非結(jie)構化文檔占據(ju)了絕(jue)大多(duo)數(shu)。據(ju)統(tong)計，到(dao)2025年，全(quan)球企(qi)業(ye)(ye)(ye)數(shu)據(ju)總量(liang)將達到(dao)175ZB。借助于(yu)IDP技術，企(qi)業(ye)(ye)(ye)能夠(gou)實(shi)現(xian)文檔自動化處理(li)、文檔語(yu)義理(li)解、智能審(shen)核和數(shu)據(ju)智能分(fen)析等(deng)方面(mian)的(de)功(gong)能，提升企(qi)業(ye)(ye)(ye)用戶文檔處理(li)的(de)效率和質量(liang)，為(wei)企(qi)業(ye)(ye)(ye)降本增效。

智能(neng)文檔處理難(nan)點(dian)

從文(wen)檔的結(jie)構(gou)特點(dian)上，我們可以將現實世界的文(wen)檔劃分為結(jie)構(gou)化(hua)(hua)、半結(jie)構(gou)化(hua)(hua)和(he)非結(jie)構(gou)化(hua)(hua)三種類(lei)型(xing)。對應到版(ban)式(shi)(shi)特征上，分別是固定版(ban)式(shi)(shi)、多版(ban)式(shi)(shi)和(he)開放版(ban)式(shi)(shi)三種類(lei)型(xing)。

結構化文(wen)(wen)檔具有(you)(you)版式固(gu)(gu)定的特(te)點，同(tong)一類型(xing)(xing)不同(tong)樣(yang)本之(zhi)間(jian)沒(mei)有(you)(you)差異，如(ru)固(gu)(gu)定版式的信息采(cai)集表、申請文(wen)(wen)件等。半結構化文(wen)(wen)檔版式相對固(gu)(gu)定，或稱為多版式文(wen)(wen)檔，同(tong)一類型(xing)(xing)不同(tong)樣(yang)本之(zhi)間(jian)關(guan)鍵內容相同(tong)，但是往(wang)往(wang)內容出現的位置卻不同(tong)，如(ru)不同(tong)供應商采(cai)購的送(song)貨單(dan)，每(mei)個供應商都(dou)不同(tong)，但是其(qi)關(guan)鍵內容都(dou)包含訂單(dan)號(hao)、商品信息等。

非(fei)結構(gou)化文(wen)(wen)檔又稱為開放版式(shi)文(wen)(wen)檔，通常(chang)沒有顯著的版式(shi)特征，幾乎是純文(wen)(wen)本(ben)表達(da)，雖然表達(da)的內(nei)容相同，但是表達(da)方(fang)式(shi)卻差異很大。常(chang)見(jian)的如合同、簡(jian)歷(li)、招標文(wen)(wen)件等(deng)。

對(dui)于(yu)結(jie)構化(hua)和半結(jie)構化(hua)文(wen)檔(dang)，由于(yu)版式相對(dui)固定(ding)，當(dang)前行業內普遍的(de)做(zuo)法(fa)是通過模板或深度學(xue)習模型的(de)方(fang)法(fa)，完成(cheng)分類和信息抽取等自(zi)動化(hua)處理，已(yi)經能夠解決大多(duo)數應用場景的(de)問題(ti)。但是，開放版式文(wen)檔(dang)，由于(yu)其天(tian)然的(de)諸多(duo)難(nan)點，給智(zhi)能文(wen)檔(dang)處理帶(dai)來了很大的(de)困難(nan)。如(ru)下(xia)表，是我們(men)歸納(na)的(de)開放版式文(wen)檔(dang)處理的(de)主(zhu)要難(nan)點。

表1 開(kai)放版式文(wen)檔特點

智(zhi)能(neng)文(wen)檔處理核心技術(shu)

如(ru)表1，相比于純(chun)文本或固定(ding)和多(duo)版(ban)式(shi)(shi)文檔(dang)，開(kai)放版(ban)式(shi)(shi)文檔(dang)處理(li)(li)具有(you)諸多(duo)難(nan)點。因此，智能文檔(dang)處理(li)(li)過(guo)程(cheng)必(bi)須(xu)綜合應用(yong)計算機視覺（CV）、光學字符(fu)處理(li)(li)（OCR）、文檔(dang)解析(xi)、自然語言(yan)處理(li)(li)（NLP）和文檔(dang)信息抽取(qu)等關鍵技術(shu)，才(cai)能更好(hao)地實現(xian)自動化和智能化處理(li)(li)。

計算機(ji)視覺(jue)（CV）技(ji)術

CV技術(shu)主(zhu)要是(shi)對于文(wen)檔圖(tu)(tu)像(xiang)進行各種(zhong)圖(tu)(tu)像(xiang)處(chu)理(li)(li)，常(chang)見如圖(tu)(tu)像(xiang)去噪聲、去干擾、圖(tu)(tu)像(xiang)增強(qiang)、圖(tu)(tu)像(xiang)壓縮、圖(tu)(tu)像(xiang)分割等。其處(chu)理(li)(li)目的主(zhu)要是(shi)為后續(xu)OCR環節提(ti)供高質量的圖(tu)(tu)像(xiang)輸入(ru)，以提(ti)升OCR的性能。同時(shi)，利(li)用圖(tu)(tu)像(xiang)檢測和分割等技術(shu)，可以實現(xian)文(wen)檔物理(li)(li)版面解析(xi)。

光學字符處理（OCR）技術

OCR是將(jiang)紙質文(wen)檔(dang)(dang)、圖片等(deng)非數字化文(wen)件中的(de)文(wen)字內容(rong)轉(zhuan)換(huan)為數字化格式的(de)技(ji)術。當(dang)前主(zhu)流(liu)實現上，借助表格識(shi)別、印章(zhang)識(shi)別、勾選和二(er)維(wei)碼(ma)識(shi)別等(deng)技(ji)術，在OCR環節可(ke)以實現圖像中所有通用對象（文(wen)字、表格、印章(zhang)、勾選、二(er)維(wei)碼(ma)、簽名等(deng)）的(de)統一識(shi)別和輸(shu)(shu)出，作為后續(xu)智(zhi)能化文(wen)檔(dang)(dang)處理環節的(de)輸(shu)(shu)入。

文檔解(jie)析技術

文檔(dang)(dang)(dang)解(jie)析(xi)是(shi)在(zai)文檔(dang)(dang)(dang)協議(yi)解(jie)析(xi)或OCR處理(li)的(de)結(jie)果上，通過版(ban)面(mian)分(fen)析(xi)、表(biao)(biao)(biao)格(ge)解(jie)析(xi)等技術，實現文檔(dang)(dang)(dang)物理(li)和邏(luo)輯結(jie)構的(de)解(jie)析(xi)，得(de)到(dao)文檔(dang)(dang)(dang)內(nei)容的(de)統(tong)(tong)一(yi)表(biao)(biao)(biao)示(shi)。以此作為進一(yi)步文檔(dang)(dang)(dang)分(fen)類、信息(xi)抽(chou)取(qu)和文檔(dang)(dang)(dang)比對(dui)等處理(li)的(de)輸(shu)入(ru)。IDP通常需要能(neng)(neng)夠(gou)支持(chi)所(suo)有格(ge)式(shi)(shi)的(de)文檔(dang)(dang)(dang)輸(shu)入(ru)，包括圖片、PDF、Word、OFD等，因此，文檔(dang)(dang)(dang)解(jie)析(xi)環節需要能(neng)(neng)夠(gou)解(jie)析(xi)以上各種格(ge)式(shi)(shi)的(de)輸(shu)入(ru)文件(jian)(jian)，將其轉換成(cheng)統(tong)(tong)一(yi)的(de)表(biao)(biao)(biao)示(shi)形式(shi)(shi)，如JSON文件(jian)(jian)。

自(zi)然語言處理（NLP）

NLP是(shi)一種(zhong)利(li)用(yong)(yong)計算機技(ji)(ji)(ji)術對(dui)自(zi)然語(yu)(yu)言進(jin)行(xing)分(fen)(fen)(fen)析(xi)和(he)處(chu)(chu)理的(de)技(ji)(ji)(ji)術，常見(jian)的(de)NLP任務包括(kuo)分(fen)(fen)(fen)詞、詞性標注、句法分(fen)(fen)(fen)析(xi)、語(yu)(yu)義分(fen)(fen)(fen)析(xi)、文本(ben)(ben)分(fen)(fen)(fen)類(lei)、信(xin)息抽(chou)取(qu)、文檔(dang)(dang)(dang)摘要、情感分(fen)(fen)(fen)析(xi)等(deng)(deng)(deng)(deng)。IDP中主要使用(yong)(yong)的(de)NLP技(ji)(ji)(ji)術包括(kuo)文本(ben)(ben)分(fen)(fen)(fen)類(lei)、文本(ben)(ben)信(xin)息抽(chou)取(qu)、語(yu)(yu)義理解等(deng)(deng)(deng)(deng)。通常的(de)做法是(shi)將(jiang)OCR輸出(chu)或文檔(dang)(dang)(dang)協議解析(xi)后的(de)所(suo)有文本(ben)(ben)塊進(jin)行(xing)拼接，得到(dao)文本(ben)(ben)序列，再通過文本(ben)(ben)分(fen)(fen)(fen)類(lei)、信(xin)息抽(chou)取(qu)等(deng)(deng)(deng)(deng)技(ji)(ji)(ji)術，實現文檔(dang)(dang)(dang)的(de)分(fen)(fen)(fen)類(lei)和(he)信(xin)息抽(chou)取(qu)。另外(wai)，通過NLP技(ji)(ji)(ji)術，也可(ke)以對(dui)文檔(dang)(dang)(dang)進(jin)行(xing)自(zi)動(dong)摘要、情感分(fen)(fen)(fen)析(xi)和(he)智(zhi)能(neng)問答(da)等(deng)(deng)(deng)(deng)處(chu)(chu)理。

文檔信息抽取(qu)

相比(bi)于純(chun)文本(ben)，文檔的最(zui)大特(te)點是其富(fu)格式特(te)點。因此，文檔中(zhong)信(xin)息(xi)(xi)(xi)抽(chou)(chou)(chou)(chou)取(qu)(qu)必須依賴于版(ban)面(mian)位置等(deng)視覺特(te)征，比(bi)如從文檔中(zhong)的圖表(biao)或表(biao)格中(zhong)抽(chou)(chou)(chou)(chou)取(qu)(qu)信(xin)息(xi)(xi)(xi)，或者從特(te)定版(ban)面(mian)位置區域的結構化信(xin)息(xi)(xi)(xi)塊中(zhong)抽(chou)(chou)(chou)(chou)取(qu)(qu)信(xin)息(xi)(xi)(xi)。相比(bi)于簡單地從大段文本(ben)序列(lie)中(zhong)做(zuo)信(xin)息(xi)(xi)(xi)抽(chou)(chou)(chou)(chou)取(qu)(qu)，文檔信(xin)息(xi)(xi)(xi)抽(chou)(chou)(chou)(chou)取(qu)(qu)技術難度更大。

智能文(wen)檔處理流程

如下圖(tu)，是(shi)智能文檔統(tong)一(yi)處理(li)流程。

圖1 智能文(wen)檔(dang)處理流程

主(zhu)要包含以(yi)下(xia)環節：

文檔預(yu)處理

該步驟主要針(zhen)對Word、PDF等文檔(dang)協議進行解析(xi)處(chu)理。

通過通用OCR識別模型，對輸入的(de)文(wen)(wen)檔圖像上的(de)文(wen)(wen)字、印章、簽名、表格等通用要(yao)素(su)進行識別，得到文(wen)(wen)本和位置，以及表格結構化數(shu)據。

版面分析(xi)

利用版面(mian)分析(xi)(xi)技術(shu)，定位出文(wen)(wen)檔圖像上所有的標(biao)題(ti)、段(duan)落(luo)、表格、圖表、頁眉、頁腳(jiao)等版面(mian)信息(xi)。再利用標(biao)題(ti)和段(duan)落(luo)等信息(xi)，做文(wen)(wen)檔邏輯結構(gou)分析(xi)(xi)，得到文(wen)(wen)檔結構(gou)。

信(xin)息抽取(qu)

基(ji)于版面(mian)和目錄分(fen)析的結果(guo)，結合文檔(dang)協(xie)議解析或OCR的結果(guo)，利用自(zi)然語言處理(li)等技術，進(jin)行文檔(dang)關鍵信息抽(chou)取。

信息校(xiao)驗

利用預設(she)的規則，對抽取出的信(xin)息進行(xing)校驗，包括數(shu)據格式檢(jian)查(cha)、預設(she)的審(shen)閱規則檢(jian)查(cha)等。

智能文檔處理應(ying)用場景

主(zhu)要(yao)的智(zhi)能文檔處理應用場景包括：

分類(lei)和(he)標簽化

通過(guo)智能文檔(dang)處理(li)技(ji)術(shu)，可以對大(da)量文檔(dang)進行分類(lei)和(he)標(biao)簽化(hua)，從(cong)而實現(xian)文檔(dang)的快(kuai)速檢索、內(nei)容(rong)推薦(jian)和(he)歸檔(dang)處理(li)等功能。

信息抽取(qu)

智能文檔處理可以幫助從文檔中抽取關(guan)(guan)鍵(jian)信息，如(ru)關(guan)(guan)鍵(jian)的短語、實體、事件(jian)等。這些信息在知識(shi)圖譜構(gou)建、智能搜索(suo)、智能比對、智能問(wen)答(da)等應用場景中具有重要的價值。

摘要(yao)與(yu)生成

利用智能文檔(dang)處理技術(shu)，可(ke)以(yi)對文檔(dang)進行自動(dong)摘(zhai)要(yao)(yao)，生(sheng)成簡潔、精煉(lian)的摘(zhai)要(yao)(yao)內(nei)容。此外，還可(ke)以(yi)根據用戶(hu)輸入的關鍵(jian)詞(ci)或短語生(sheng)成特(te)定主題的文章，以(yi)滿足(zu)用戶(hu)需求。

問答與對(dui)話

通(tong)過智(zhi)能文檔(dang)處(chu)理(li)技術，可(ke)以構建智(zhi)能問(wen)答系(xi)統(tong)，為(wei)用戶(hu)提供及時(shi)準確的(de)文檔(dang)內(nei)容信息。

未來隨著(zhu)大模型(xing)等人工智能(neng)技術的不斷(duan)發展，智能(neng)文(wen)檔(dang)處理將(jiang)會在各個(ge)行業的應用場景中不斷(duan)普及化。

賽博(bo)智能學習平臺智能文檔處理

賽博智能學習平臺(tai)(tai)定(ding)位于(yu)一(yi)體化(hua)機(ji)器(qi)學習訓練(lian)平臺(tai)(tai)，集成了對(dui)于(yu)結構(gou)化(hua)和非(fei)結構(gou)文檔的(de)智能化(hua)處理(li)功能，包括智能文檔分類、文檔解析和文檔信(xin)息抽取等。能夠支持(chi)合(he)同、法律文書、招投標文件(jian)等各種開放(fang)版式長文檔的(de)智能化(hua)處理(li)。基(ji)于(yu)平臺(tai)(tai)自定(ding)義模板和自訓練(lian)模型(xing)能力，通過現場模板定(ding)制、模型(xing)標注訓練(lian)的(de)方式，能夠形(xing)成即時可(ke)用(yong)的(de)文檔AI能力。

如下圖(tu)，是賽博(bo)智能學習平臺智能文檔(dang)處(chu)理的基本流程。

圖(tu)2 賽博(bo)智能(neng)學習平臺智能(neng)文檔處理(li)流程

未來，易道博識(shi)將繼(ji)續針對金融、能(neng)源、通信等(deng)行業(ye)客(ke)戶，在業(ye)務運(yun)營、審核和(he)監督管(guan)理、信息檢索(suo)和(he)風險管(guan)理等(deng)場景下(xia)，圍繞數字化(hua)、自(zi)動(dong)化(hua)和(he)智(zhi)能(neng)化(hua)需求，依托(tuo)賽博智(zhi)能(neng)學習平臺，為企(qi)業(ye)打造強(qiang)大AI底座，助力企(qi)業(ye)建(jian)設(she)基于AI模型全生命周期的標準化(hua)、一體(ti)化(hua)生產運(yun)營體(ti)系。

賽博智能學(xue)習平臺以私有化部署、現場訓練(lian)的形(xing)式滿足(zu)客戶對數據安(an)全要求(qiu)(qiu)，通過與業務(wu)系(xi)統深度融合，滿足(zu)各(ge)業務(wu)場景在圖(tu)像處理、OCR、智能文檔處理和NLP等方向需求(qiu)(qiu)。

賽博智(zhi)能學習平(ping)臺持續將AI大模型(xing)等前沿技(ji)術(shu)(shu)與行業數據深度結合，在(zai)技(ji)術(shu)(shu)與業務場(chang)景(jing)之(zhi)間搭橋(qiao)鋪路，讓AI技(ji)術(shu)(shu)快速在(zai)場(chang)景(jing)中落地，在(zai)應用場(chang)景(jing)中產(chan)生價值，帶動產(chan)業發(fa)展(zhan)和(he)升級。

上一篇：金融領域數智化轉型創新應用和實踐——賽博智能學習平臺

下一篇：易道博識榮獲第二屆光合組織AI解決方案大賽一等獎

返回列表

更多資訊

易(yi)道博識OCR智能識別方案，助力(li)金融業降(jiang)本(ben)增效

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

色噜噜狠狠色综合成人网_色五月丁香六月欧美综合_国产98在线 | 欧美_狠狠躁天天躁夜夜躁婷婷

搜索

淺談智能文檔處理技術與應用

國內統一咨詢服務熱線

（早09:00 - 晚18:00）