色噜噜狠狠色综合成人网_色五月丁香六月欧美综合_国产98在线 | 欧美_狠狠躁天天躁夜夜躁婷婷

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行(xing)業資訊(xun)

大模型技術在智能文檔處理中的應用(上篇)

來源:易(yi)道(dao)博識(shi) 發布(bu)時(shi)間:2023-06-15



ChatGPT爆火,大(da)語言模型技(ji)術(shu)廣受(shou)關注
ChatGPT是OpenAI公司基于大(da)型(xing)預訓練語言模型(xing)(Large Language Models, LLM) GPT-3.5發(fa)布的(de)智能(neng)(neng)聊天機器人(ren),因其(qi)驚(jing)艷(yan)的(de)語義理解(jie)、智能(neng)(neng)會(hui)話和文本(ben)(ben)生成能(neng)(neng)力(li),獲(huo)得(de)了全球1億月活用戶的(de)熱情追(zhui)捧(peng)。ChatGPT可以從海量未標注數據集中獲(huo)得(de)的(de)信息,自(zi)動識別、總結、翻譯、預測和生成內容。3月15日,OpenAI又發(fa)布了GPT-4多模態大(da)模型(xing),該模型(xing)能(neng)(neng)夠支持文本(ben)(ben)和圖像輸(shu)入,與(yu) GPT-3.5相比,其(qi)回答(da)準確度、文字輸(shu)入長(chang)度等各方面性能(neng)(neng)均有顯著提升。
ChatGPT的問世,開啟(qi)了新一輪的(de)技術(shu)浪潮,標(biao)志著(zhu)人工智能技術(shu)發展正式進入(ru)了大(da)模(mo)型時代(dai)。模(mo)型的(de)背后其實是“知識”。未(wei)來,“模(mo)型”將無處不在,人工智能與(yu)行業應用的(de)結合會更加緊密,以模(mo)型驅動的(de)發展范式變革正在快(kuai)速形成,整個(ge)人工智(zhi)能行業的生態會愈發完整。
可以(yi)看出,ChatGPT驚艷效果本質上來自(zi)于其背(bei)后的(de)大(da)(da)(da)語(yu)(yu)言(yan)(yan)模(mo)型(xing)(xing)技(ji)(ji)術。那么(me)(me),究竟什么(me)(me)是(shi)大(da)(da)(da)語(yu)(yu)言(yan)(yan)模(mo)型(xing)(xing)?大(da)(da)(da)語(yu)(yu)言(yan)(yan)模(mo)型(xing)(xing)是(shi)一種基于深(shen)度(du)學(xue)習(xi)算(suan)法的(de)自(zi)然(ran)語(yu)(yu)言(yan)(yan)處理技(ji)(ji)術,旨在讓計算(suan)機能(neng)夠(gou)理解(jie)和(he)(he)(he)生(sheng)成自(zi)然(ran)語(yu)(yu)言(yan)(yan)文本。大(da)(da)(da)語(yu)(yu)言(yan)(yan)模(mo)型(xing)(xing)的(de)訓(xun)練通常需要海量的(de)文本數(shu)(shu)據(ju)(如維基百科、新聞文章、社交媒體等(deng)(deng))和(he)(he)(he)強大(da)(da)(da)的(de)計算(suan)資(zi)源。在訓(xun)練過程中(zhong)(zhong),大(da)(da)(da)語(yu)(yu)言(yan)(yan)模(mo)型(xing)(xing)會通過學(xue)習(xi)這些數(shu)(shu)據(ju)中(zhong)(zhong)的(de)模(mo)式和(he)(he)(he)規(gui)律(lv)來調整自(zi)己的(de)權重和(he)(he)(he)參(can)數(shu)(shu),從而提(ti)高自(zi)身對語(yu)(yu)言(yan)(yan)的(de)理解(jie)和(he)(he)(he)生(sheng)成能(neng)力。大(da)(da)(da)語(yu)(yu)言(yan)(yan)模(mo)型(xing)(xing)的(de)應用非常廣泛,如語(yu)(yu)言(yan)(yan)翻譯、問答系統、語(yu)(yu)音識別(bie)和(he)(he)(he)文本生(sheng)成等(deng)(deng)。

智能文檔處理難點解析
智能(neng)文檔(dang)處理(IDP,Intelligent Document Processing)是(shi)利用(yong)人工智能技(ji)術,自動從復雜(za)的非結構化(hua)和半結構化(hua)文檔(dang)中(zhong)抽取關鍵(jian)數據,并將其轉(zhuan)換成結構化(hua)數據的技(ji)術。常見的文檔(dang)包括純文本、帶(dai)格式(shi)文檔(dang)和富格式(shi)文檔(dang)三(san)種(zhong)類型(xing),如下圖示例。

圖1:常見文檔(dang)類型

  • 純文本

由大(da)段純文字組成,內容形式比較單一。通常(chang)利用(yong)自然語言處理(li)技術,即可以完(wan)成語義理(li)解和(he)分(fen)析處理(li)工作(zuo)。
  • 帶格式文檔

如(ru)Word等帶(dai)有格(ge)式(shi)的文(wen)檔,其主(zhu)要特(te)點是(shi)包(bao)含有結構(gou)化(hua)(hua)的信(xin)息,可以直接解析出文(wen)檔的物理元素和邏輯(ji)結構(gou),進而轉化(hua)(hua)為結構(gou)化(hua)(hua)數據。

  • 富格式文檔(dang)
相較于純文(wen)(wen)本和帶格式文(wen)(wen)檔,富(fu)(fu)格式文(wen)(wen)檔更加復雜,除了各(ge)種形(xing)式的文(wen)(wen)本信息外,還包含有豐(feng)富(fu)(fu)的多模(mo)態元素,如(ru)表格和圖片。富(fu)(fu)格式文(wen)(wen)檔具有如(ru)下幾(ji)個方(fang)面的特點(dian):
· 多(duo)樣性
富格(ge)(ge)式(shi)(shi)(shi)文(wen)檔(dang)的(de)(de)多樣性主要(yao)體現在格(ge)(ge)式(shi)(shi)(shi)、種類(lei)、內(nei)容和版(ban)式(shi)(shi)(shi)等維(wei)度。常見的(de)(de)格(ge)(ge)式(shi)(shi)(shi)有(you)拍照圖像、掃描件、可解析格(ge)(ge)式(shi)(shi)(shi)(如PDF)等,版(ban)式(shi)(shi)(shi)包括(kuo)有(you)固(gu)定、多版(ban)式(shi)(shi)(shi)和開放(fang)版(ban)式(shi)(shi)(shi)等類(lei)型。
· 多模態信息豐(feng)富性
富格式文檔包含有豐富的(de)元素信息,如文字(zi)、標題、段(duan)落(luo)、表(biao)格、圖表(biao)、印章(zhang)、簽名、頁(ye)眉(mei)和(he)頁(ye)腳。
· 領域差異性(xing)
不同領(ling)域(yu)的(de)文檔(dang)通常在(zai)種類、版(ban)式、語料和表(biao)達(da)方式方面差異(yi)很大,如金融、地產、教育和醫療等,實(shi)際中(zhong)存在(zai)著(zhu)大量領(ling)域(yu)特定文檔(dang)。
· 長短不一致性
從單張(zhang)圖片、單頁文檔(dang)到幾(ji)十上百頁的長(chang)文檔(dang),文檔(dang)的長(chang)度(du)通常跨度(du)很(hen)大。
以(yi)上(shang)富格(ge)式文(wen)檔特點,增加了通用(yong)IDP系統的處理難度。
關(guan)于更詳(xiang)細的(de)智能(neng)文(wen)檔處理(li)難(nan)點介紹(shao),請參見《淺談智能文檔處理技術和應用》文章。

在線留言