色噜噜狠狠色综合成人网_色五月丁香六月欧美综合_国产98在线 | 欧美_狠狠躁天天躁夜夜躁婷婷

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行(xing)業資訊

淺談智能文檔處理技術與應用

來(lai)源:易(yi)道博識 發(fa)布時間:2023-04-26
智能文(wen)檔(dang)處理介紹
智能文(wen)檔處理(IDP)是(shi)利(li)用人工智能技(ji)術(shu),自動從復雜的(de)(de)非結構(gou)(gou)(gou)化和半結構(gou)(gou)(gou)化文(wen)檔中抽取關(guan)鍵數(shu)(shu)據(ju)(ju),并將其轉換(huan)成結構(gou)(gou)(gou)化數(shu)(shu)據(ju)(ju)的(de)(de)技(ji)術(shu)。IDP又稱為認知數(shu)(shu)據(ju)(ju)處理(Cognitive Data Processing)或智能數(shu)(shu)據(ju)(ju)捕(bu)獲(Intelligent Data Capturing)技(ji)術(shu)。
眾所周知(zhi),商(shang)業(ye)(ye)(ye)數(shu)據(ju)是(shi)企(qi)業(ye)(ye)(ye)數(shu)字(zi)化轉(zhuan)型的(de)核心。然而,現(xian)實(shi)中80%的(de)商(shang)業(ye)(ye)(ye)數(shu)據(ju)都(dou)是(shi)非結(jie)構化格式,比如郵件、圖片和各種企(qi)業(ye)(ye)(ye)文檔,其中非結(jie)構化文檔占據(ju)了絕(jue)大多(duo)數(shu)。據(ju)統(tong)計,到(dao)2025年,全(quan)球企(qi)業(ye)(ye)(ye)數(shu)據(ju)總量(liang)將達到(dao)175ZB。借助于(yu)IDP技術,企(qi)業(ye)(ye)(ye)能夠(gou)實(shi)現(xian)文檔自動化處理(li)、文檔語(yu)義理(li)解、智能審(shen)核和數(shu)據(ju)智能分(fen)析等(deng)方面(mian)的(de)功(gong)能,提升企(qi)業(ye)(ye)(ye)用戶文檔處理(li)的(de)效率和質量(liang),為(wei)企(qi)業(ye)(ye)(ye)降本增效。
智能(neng)文檔處理難(nan)點(dian)
從文(wen)檔的結(jie)構(gou)特點(dian)上,我們可以將現實世界的文(wen)檔劃分為結(jie)構(gou)化(hua)(hua)、半結(jie)構(gou)化(hua)(hua)和(he)非結(jie)構(gou)化(hua)(hua)三種類(lei)型(xing)。對應到版(ban)式(shi)(shi)特征上,分別是固定版(ban)式(shi)(shi)、多版(ban)式(shi)(shi)和(he)開放版(ban)式(shi)(shi)三種類(lei)型(xing)。
結構化文(wen)(wen)檔具有(you)(you)版式固(gu)(gu)定的特(te)點,同(tong)一類型(xing)(xing)不同(tong)樣(yang)本之(zhi)間(jian)沒(mei)有(you)(you)差異,如(ru)固(gu)(gu)定版式的信息采(cai)集表、申請文(wen)(wen)件等。半結構化文(wen)(wen)檔版式相對固(gu)(gu)定,或稱為多版式文(wen)(wen)檔,同(tong)一類型(xing)(xing)不同(tong)樣(yang)本之(zhi)間(jian)關(guan)鍵內容相同(tong),但是往(wang)往(wang)內容出現的位置卻不同(tong),如(ru)不同(tong)供應商采(cai)購的送(song)貨單(dan),每(mei)個供應商都(dou)不同(tong),但是其(qi)關(guan)鍵內容都(dou)包含訂單(dan)號(hao)、商品信息等。
非(fei)結構(gou)化文(wen)(wen)檔又稱為開放版式(shi)文(wen)(wen)檔,通常(chang)沒有顯著的版式(shi)特征,幾乎是純文(wen)(wen)本(ben)表達(da),雖然表達(da)的內(nei)容相同,但是表達(da)方(fang)式(shi)卻差異很大。常(chang)見(jian)的如合同、簡(jian)歷(li)、招標文(wen)(wen)件等(deng)。
對(dui)于(yu)結(jie)構化(hua)和半結(jie)構化(hua)文(wen)檔(dang),由于(yu)版式相對(dui)固定(ding),當(dang)前行業內普遍的(de)做(zuo)法(fa)是通過模板或深度學(xue)習模型的(de)方(fang)法(fa),完成(cheng)分類和信息抽取等自(zi)動化(hua)處理,已(yi)經能夠解決大多(duo)數應用場景的(de)問題(ti)。但是,開放版式文(wen)檔(dang),由于(yu)其天(tian)然的(de)諸多(duo)難(nan)點,給智(zhi)能文(wen)檔(dang)處理帶(dai)來了很大的(de)困難(nan)。如(ru)下(xia)表,是我們(men)歸納(na)的(de)開放版式文(wen)檔(dang)處理的(de)主(zhu)要難(nan)點。


表1 開(kai)放版式文(wen)檔特點

智(zhi)能(neng)文(wen)檔處理核心技術(shu)
如(ru)表1,相比于純(chun)文本或固定(ding)和多(duo)版(ban)式(shi)(shi)文檔(dang),開(kai)放版(ban)式(shi)(shi)文檔(dang)處理(li)(li)具有(you)諸多(duo)難(nan)點。因此,智能文檔(dang)處理(li)(li)過(guo)程(cheng)必(bi)須(xu)綜合應用(yong)計算機視覺(CV)、光學字符(fu)處理(li)(li)(OCR)、文檔(dang)解析(xi)、自然語言(yan)處理(li)(li)(NLP)和文檔(dang)信息抽取(qu)等關鍵技術(shu),才(cai)能更好(hao)地實現(xian)自動化和智能化處理(li)(li)。
計算機(ji)視覺(jue)(CV)技(ji)術

CV技術(shu)主(zhu)要是(shi)對于文(wen)檔圖(tu)(tu)像(xiang)進行各種(zhong)圖(tu)(tu)像(xiang)處(chu)理(li)(li),常(chang)見如圖(tu)(tu)像(xiang)去噪聲、去干擾、圖(tu)(tu)像(xiang)增強(qiang)、圖(tu)(tu)像(xiang)壓縮、圖(tu)(tu)像(xiang)分割等。其處(chu)理(li)(li)目的主(zhu)要是(shi)為后續(xu)OCR環節提(ti)供高質量的圖(tu)(tu)像(xiang)輸入(ru),以提(ti)升OCR的性能。同時(shi),利(li)用圖(tu)(tu)像(xiang)檢測和分割等技術(shu),可以實現(xian)文(wen)檔物理(li)(li)版面解析(xi)。

  • 光學字符處理(OCR)技術

OCR是將(jiang)紙質文(wen)檔(dang)(dang)、圖片等(deng)非數字化文(wen)件中的(de)文(wen)字內容(rong)轉(zhuan)換(huan)為數字化格式的(de)技(ji)術。當(dang)前主(zhu)流(liu)實現上,借助表格識(shi)別、印章(zhang)識(shi)別、勾選和二(er)維(wei)碼(ma)識(shi)別等(deng)技(ji)術,在OCR環節可(ke)以實現圖像中所有通用對象(文(wen)字、表格、印章(zhang)、勾選、二(er)維(wei)碼(ma)、簽名等(deng))的(de)統一識(shi)別和輸(shu)(shu)出,作為后續(xu)智(zhi)能化文(wen)檔(dang)(dang)處理環節的(de)輸(shu)(shu)入。

  • 文檔解(jie)析技術

文檔(dang)(dang)(dang)解(jie)析(xi)是(shi)在(zai)文檔(dang)(dang)(dang)協議(yi)解(jie)析(xi)或OCR處理(li)的(de)結(jie)果上,通過版(ban)面(mian)分(fen)析(xi)、表(biao)(biao)(biao)格(ge)解(jie)析(xi)等技術,實現文檔(dang)(dang)(dang)物理(li)和邏(luo)輯結(jie)構的(de)解(jie)析(xi),得(de)到(dao)文檔(dang)(dang)(dang)內(nei)容的(de)統(tong)(tong)一(yi)表(biao)(biao)(biao)示(shi)。以此作為進一(yi)步文檔(dang)(dang)(dang)分(fen)類、信息(xi)抽(chou)取(qu)和文檔(dang)(dang)(dang)比對(dui)等處理(li)的(de)輸(shu)入(ru)。IDP通常需要能(neng)(neng)夠(gou)支持(chi)所(suo)有格(ge)式(shi)(shi)的(de)文檔(dang)(dang)(dang)輸(shu)入(ru),包括圖片、PDF、Word、OFD等,因此,文檔(dang)(dang)(dang)解(jie)析(xi)環節需要能(neng)(neng)夠(gou)解(jie)析(xi)以上各種格(ge)式(shi)(shi)的(de)輸(shu)入(ru)文件(jian)(jian),將其轉換成(cheng)統(tong)(tong)一(yi)的(de)表(biao)(biao)(biao)示(shi)形式(shi)(shi),如JSON文件(jian)(jian)。

  • 自(zi)然語言處理(NLP)
NLP是(shi)一種(zhong)利(li)用(yong)(yong)計算機技(ji)(ji)(ji)術對(dui)自(zi)然語(yu)(yu)言進(jin)行(xing)分(fen)(fen)(fen)析(xi)和(he)處(chu)(chu)理的(de)技(ji)(ji)(ji)術,常見(jian)的(de)NLP任務包括(kuo)分(fen)(fen)(fen)詞、詞性標注、句法分(fen)(fen)(fen)析(xi)、語(yu)(yu)義分(fen)(fen)(fen)析(xi)、文本(ben)(ben)分(fen)(fen)(fen)類(lei)、信(xin)息抽(chou)取(qu)、文檔(dang)(dang)(dang)摘要、情感分(fen)(fen)(fen)析(xi)等(deng)(deng)(deng)(deng)。IDP中主要使用(yong)(yong)的(de)NLP技(ji)(ji)(ji)術包括(kuo)文本(ben)(ben)分(fen)(fen)(fen)類(lei)、文本(ben)(ben)信(xin)息抽(chou)取(qu)、語(yu)(yu)義理解等(deng)(deng)(deng)(deng)。通常的(de)做法是(shi)將(jiang)OCR輸出(chu)或文檔(dang)(dang)(dang)協議解析(xi)后的(de)所(suo)有文本(ben)(ben)塊進(jin)行(xing)拼接,得到(dao)文本(ben)(ben)序列,再通過文本(ben)(ben)分(fen)(fen)(fen)類(lei)、信(xin)息抽(chou)取(qu)等(deng)(deng)(deng)(deng)技(ji)(ji)(ji)術,實現文檔(dang)(dang)(dang)的(de)分(fen)(fen)(fen)類(lei)和(he)信(xin)息抽(chou)取(qu)。另外(wai),通過NLP技(ji)(ji)(ji)術,也可(ke)以對(dui)文檔(dang)(dang)(dang)進(jin)行(xing)自(zi)動(dong)摘要、情感分(fen)(fen)(fen)析(xi)和(he)智(zhi)能(neng)問答(da)等(deng)(deng)(deng)(deng)處(chu)(chu)理。
  • 文檔信息抽取(qu)
相比(bi)于純(chun)文本(ben),文檔的最(zui)大特(te)點是其富(fu)格式特(te)點。因此,文檔中(zhong)信(xin)息(xi)(xi)(xi)抽(chou)(chou)(chou)(chou)取(qu)(qu)必須依賴于版(ban)面(mian)位置等(deng)視覺特(te)征,比(bi)如從文檔中(zhong)的圖表(biao)或表(biao)格中(zhong)抽(chou)(chou)(chou)(chou)取(qu)(qu)信(xin)息(xi)(xi)(xi),或者從特(te)定版(ban)面(mian)位置區域的結構化信(xin)息(xi)(xi)(xi)塊中(zhong)抽(chou)(chou)(chou)(chou)取(qu)(qu)信(xin)息(xi)(xi)(xi)。相比(bi)于簡單地從大段文本(ben)序列(lie)中(zhong)做(zuo)信(xin)息(xi)(xi)(xi)抽(chou)(chou)(chou)(chou)取(qu)(qu),文檔信(xin)息(xi)(xi)(xi)抽(chou)(chou)(chou)(chou)取(qu)(qu)技術難度更大。
智能文(wen)檔處理流程
如下圖(tu),是(shi)智能文檔統(tong)一(yi)處理(li)流程。

圖1 智能文(wen)檔(dang)處理流程

主(zhu)要包含以(yi)下(xia)環節:
  • 文檔預(yu)處理
該步驟主要針(zhen)對Word、PDF等文檔(dang)協議進行解析(xi)處(chu)理。
  • OCR
通過通用OCR識別模型,對輸入的(de)文(wen)(wen)檔圖像上的(de)文(wen)(wen)字、印章、簽名、表格等通用要(yao)素(su)進行識別,得到文(wen)(wen)本和位置,以及表格結構化數(shu)據。
  • 版面分析(xi)
利用版面(mian)分析(xi)(xi)技術(shu),定位出文(wen)(wen)檔圖像上所有的標(biao)題(ti)、段(duan)落(luo)、表格、圖表、頁眉、頁腳(jiao)等版面(mian)信息(xi)。再利用標(biao)題(ti)和段(duan)落(luo)等信息(xi),做文(wen)(wen)檔邏輯結構(gou)分析(xi)(xi),得到文(wen)(wen)檔結構(gou)。
  • 信(xin)息抽取(qu)
基(ji)于版面(mian)和目錄分(fen)析的結果(guo),結合文檔(dang)協(xie)議解析或OCR的結果(guo),利用自(zi)然語言處理(li)等技術,進(jin)行文檔(dang)關鍵信息抽(chou)取。
  • 信息校(xiao)驗
利用預設(she)的規則,對抽取出的信(xin)息進行(xing)校驗,包括數(shu)據格式檢(jian)查(cha)、預設(she)的審(shen)閱規則檢(jian)查(cha)等。
智能文檔處理應(ying)用場景
主(zhu)要(yao)的智(zhi)能文檔處理應用場景包括:
  • 分類(lei)和(he)標簽化
通過(guo)智能文檔(dang)處理(li)技(ji)術(shu),可以對大(da)量文檔(dang)進行分類(lei)和(he)標(biao)簽化(hua),從(cong)而實現(xian)文檔(dang)的快(kuai)速檢索、內(nei)容(rong)推薦(jian)和(he)歸檔(dang)處理(li)等功能。
  • 信息抽取(qu)
智能文檔處理可以幫助從文檔中抽取關(guan)(guan)鍵(jian)信息,如(ru)關(guan)(guan)鍵(jian)的短語、實體、事件(jian)等。這些信息在知識(shi)圖譜構(gou)建、智能搜索(suo)、智能比對、智能問(wen)答(da)等應用場景中具有重要的價值。
  • 摘要(yao)與(yu)生成
利用智能文檔(dang)處理技術(shu),可(ke)以(yi)對文檔(dang)進行自動(dong)摘(zhai)要(yao)(yao),生(sheng)成簡潔、精煉(lian)的摘(zhai)要(yao)(yao)內(nei)容。此外,還可(ke)以(yi)根據用戶(hu)輸入的關鍵(jian)詞(ci)或短語生(sheng)成特(te)定主題的文章,以(yi)滿足(zu)用戶(hu)需求。
  • 問答與對(dui)話
通(tong)過智(zhi)能文檔(dang)處(chu)理(li)技術,可(ke)以構建智(zhi)能問(wen)答系(xi)統(tong),為(wei)用戶(hu)提供及時(shi)準確的(de)文檔(dang)內(nei)容信息。
未來隨著(zhu)大模型(xing)等人工智能(neng)技術的不斷(duan)發展,智能(neng)文(wen)檔(dang)處理將(jiang)會在各個(ge)行業的應用場景中不斷(duan)普及化。
賽博(bo)智能學習平臺智能文檔處理
賽博智能學習平臺(tai)(tai)定(ding)位于(yu)一(yi)體化(hua)機(ji)器(qi)學習訓練(lian)平臺(tai)(tai),集成了對(dui)于(yu)結構(gou)化(hua)和非(fei)結構(gou)文檔的(de)智能化(hua)處理(li)功能,包括智能文檔分類、文檔解析和文檔信(xin)息抽取等。能夠支持(chi)合(he)同、法律文書、招投標文件(jian)等各種開放(fang)版式長文檔的(de)智能化(hua)處理(li)。基(ji)于(yu)平臺(tai)(tai)自定(ding)義模板和自訓練(lian)模型(xing)能力,通過現場模板定(ding)制、模型(xing)標注訓練(lian)的(de)方式,能夠形(xing)成即時可(ke)用(yong)的(de)文檔AI能力。
如下圖(tu),是賽博(bo)智能學習平臺智能文檔(dang)處(chu)理的基本流程。


圖(tu)2 賽博(bo)智能(neng)學習平臺智能(neng)文檔處理(li)流程

未來,易道博識(shi)將繼(ji)續針對金融、能(neng)源、通信等(deng)行業(ye)客(ke)戶,在業(ye)務運(yun)營、審核和(he)監督管(guan)理、信息檢索(suo)和(he)風險管(guan)理等(deng)場景下(xia),圍繞數字化(hua)、自(zi)動(dong)化(hua)和(he)智(zhi)能(neng)化(hua)需求,依托(tuo)賽博智(zhi)能(neng)學習平臺,為企(qi)業(ye)打造強(qiang)大AI底座,助力企(qi)業(ye)建(jian)設(she)基于AI模型全生命周期的標準化(hua)、一體(ti)化(hua)生產運(yun)營體(ti)系。
賽博智能學(xue)習平臺以私有化部署、現場訓練(lian)的形(xing)式滿足(zu)客戶對數據安(an)全要求(qiu)(qiu),通過與業務(wu)系(xi)統深度融合,滿足(zu)各(ge)業務(wu)場景在圖(tu)像處理、OCR、智能文檔處理和NLP等方向需求(qiu)(qiu)。
賽博智(zhi)能學習平(ping)臺持續將AI大模型(xing)等前沿技(ji)術(shu)(shu)與行業數據深度結合,在(zai)技(ji)術(shu)(shu)與業務場(chang)景(jing)之(zhi)間搭橋(qiao)鋪路,讓AI技(ji)術(shu)(shu)快速在(zai)場(chang)景(jing)中落地,在(zai)應用場(chang)景(jing)中產(chan)生價值,帶動產(chan)業發(fa)展(zhan)和(he)升級。
在線留言