色噜噜狠狠色综合成人网_色五月丁香六月欧美综合_国产98在线 | 欧美_狠狠躁天天躁夜夜躁婷婷

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資(zi)訊

大模型技術在智能文檔處理中的應用(上篇)

來源:易道博識 發布時間:2023-06-15



ChatGPT爆火,大語言模型(xing)技術廣受關注
ChatGPT是OpenAI公(gong)司(si)基于大(da)型(xing)預(yu)訓練語(yu)言(yan)模型(xing)(Large Language Models, LLM) GPT-3.5發布(bu)的(de)(de)智(zhi)能聊天(tian)機器人,因其驚艷的(de)(de)語(yu)義理解、智(zhi)能會話和文本生成能力,獲得(de)了(le)(le)全球1億月活用(yong)戶的(de)(de)熱情追捧。ChatGPT可以從海量未標注數據集中獲得(de)的(de)(de)信息,自動識別、總結、翻譯、預(yu)測和生成內容(rong)。3月15日,OpenAI又發布(bu)了(le)(le)GPT-4多模態大(da)模型(xing),該(gai)模型(xing)能夠支持文本和圖像輸入,與 GPT-3.5相(xiang)比,其回答準(zhun)確度(du)(du)、文字輸入長度(du)(du)等各方面性能均(jun)有顯著提升。
ChatGPT的問世,開啟(qi)了新一輪的(de)技術浪潮,標志著人(ren)工智(zhi)能技術發(fa)展(zhan)正式進入了大模型時(shi)代(dai)。模型的(de)背后其實是“知識”。未(wei)來,“模型”將無處不在(zai),人(ren)工智(zhi)能與行業應用的(de)結合會更加緊密,以模型驅動的(de)發(fa)展(zhan)范式變革正在(zai)快速形成,整(zheng)個(ge)人(ren)工智能行業的生態會愈(yu)發完(wan)整(zheng)。
可以看出,ChatGPT驚艷效果(guo)本(ben)質上來(lai)自于其(qi)背后的大(da)語(yu)(yu)(yu)言(yan)模(mo)(mo)型(xing)(xing)(xing)技術。那么,究(jiu)竟什么是大(da)語(yu)(yu)(yu)言(yan)模(mo)(mo)型(xing)(xing)(xing)?大(da)語(yu)(yu)(yu)言(yan)模(mo)(mo)型(xing)(xing)(xing)是一種基于深(shen)度學(xue)(xue)習算法的自然語(yu)(yu)(yu)言(yan)處理技術,旨(zhi)在(zai)讓計(ji)算機能夠理解和生(sheng)成自然語(yu)(yu)(yu)言(yan)文本(ben)。大(da)語(yu)(yu)(yu)言(yan)模(mo)(mo)型(xing)(xing)(xing)的訓練通常(chang)需要海量的文本(ben)數據(ju)(如(ru)維基百科、新聞文章、社交媒體等)和強大(da)的計(ji)算資(zi)源。在(zai)訓練過(guo)程中,大(da)語(yu)(yu)(yu)言(yan)模(mo)(mo)型(xing)(xing)(xing)會(hui)通過(guo)學(xue)(xue)習這些數據(ju)中的模(mo)(mo)式和規律來(lai)調整自己的權重和參數,從而提高自身對語(yu)(yu)(yu)言(yan)的理解和生(sheng)成能力。大(da)語(yu)(yu)(yu)言(yan)模(mo)(mo)型(xing)(xing)(xing)的應用非常(chang)廣(guang)泛,如(ru)語(yu)(yu)(yu)言(yan)翻譯、問答系統、語(yu)(yu)(yu)音識別(bie)和文本(ben)生(sheng)成等。

智能文檔處理難(nan)點(dian)解析
智能文檔處(chu)理(IDP,Intelligent Document Processing)是利用人工智(zhi)能技(ji)術,自(zi)動從復雜的(de)非結(jie)構化(hua)和(he)半結(jie)構化(hua)文檔中抽取關鍵數(shu)據(ju),并將其轉換(huan)成結(jie)構化(hua)數(shu)據(ju)的(de)技(ji)術。常(chang)見的(de)文檔包(bao)括純(chun)文本、帶格式文檔和(he)富格式文檔三種類型,如下圖示例(li)。

圖1:常見(jian)文檔類(lei)型

  • 純文(wen)本

由(you)大段純文字組成,內容形式比較單(dan)一(yi)。通(tong)常利用(yong)自然語言處理(li)技(ji)術,即可以完成語義理(li)解和(he)分析處理(li)工作。
  • 帶格式文檔

如(ru)Word等帶有格式(shi)的文(wen)檔(dang)(dang),其主要特(te)點(dian)是(shi)包含有結構化的信(xin)息,可以直接解析出文(wen)檔(dang)(dang)的物理元素和邏輯結構,進而轉化為結構化數(shu)據。

  • 富格式文(wen)檔
相較(jiao)于(yu)純文(wen)(wen)(wen)本(ben)和帶格(ge)(ge)式(shi)文(wen)(wen)(wen)檔(dang)(dang),富格(ge)(ge)式(shi)文(wen)(wen)(wen)檔(dang)(dang)更加復雜,除了各種形式(shi)的(de)(de)文(wen)(wen)(wen)本(ben)信息外,還(huan)包(bao)含有豐富的(de)(de)多模態元素,如(ru)表(biao)格(ge)(ge)和圖(tu)片。富格(ge)(ge)式(shi)文(wen)(wen)(wen)檔(dang)(dang)具(ju)有如(ru)下幾個方面的(de)(de)特點:
· 多樣(yang)性
富格式(shi)文檔(dang)的(de)多樣性主(zhu)要體現在格式(shi)、種(zhong)類、內(nei)容和(he)版式(shi)等維度。常見的(de)格式(shi)有拍(pai)照圖像、掃描件、可解析格式(shi)(如PDF)等,版式(shi)包括有固(gu)定、多版式(shi)和(he)開(kai)放版式(shi)等類型(xing)。
· 多模(mo)態(tai)信(xin)息豐富(fu)性
富(fu)格(ge)式文(wen)檔包含有豐(feng)富(fu)的元素信(xin)息,如文(wen)字、標題、段落、表格(ge)、圖表、印(yin)章、簽(qian)名(ming)、頁(ye)眉和頁(ye)腳。
· 領域差異性
不同領域的文檔(dang)通常在種類、版(ban)式(shi)、語(yu)料和表達方(fang)式(shi)方(fang)面(mian)差(cha)異很大,如金(jin)融(rong)、地產(chan)、教育和醫療等,實(shi)際中存(cun)在著大量領域特(te)定(ding)文檔(dang)。
· 長短不一致(zhi)性
從單張圖片、單頁文檔到(dao)幾十(shi)上百頁的長文檔,文檔的長度(du)通常(chang)跨度(du)很大。
以上富格式文檔特點,增加了通(tong)用IDP系統(tong)的(de)處(chu)理難度。
關于更詳細的智能文檔處理難點介紹,請參見《淺談智能文檔處理技術和應用》文(wen)章。

在線留言