易道(dao)博(bo)識(shi)掌握具有自主知識(shi)產(chan)權的核心(xin)算法(fa),覆(fu)蓋文(wen)字識(shi)別、文(wen)檔處(chu)理、圖像處(chu)理、自然(ran)語言處(chu)理,結合領(ling)域模型(xing)學習能(neng)力,駕馭算力資源,不斷實現數據(ju)驅動下的模型(xing)升級,持(chi)續打造更強大的AI能(neng)力。
文字識別
表格識別
印章識別
勾選識別
簽名比對
印刷、手寫、中文、英文、數字識別
基于深度學習全新DeepOCR識別流程,大幅提升識別速度及精度,
卡證類< 300ms,單張發票< 1s,A4幅面票據混掃< 3s,
漢字字符識別率> 99.5%,數字字符識別率> 99.9%,
英(ying)文字符識別(bie)率(lv)> 99.7%,手寫(xie)整行識別(bie)率(lv)> 95.2%
有線、無(wu)線、列位(wei)偏(pian)移、多列重疊
多形狀、多方向、曲線行、模糊、遮擋
重(zhong)疊 、小印章
符號檢測、內容識別
簽名(ming)檢測、簽名(ming)比對
版面分析:標題、段落、表格、印章、簽名、信息塊、圖表
文檔分類:固定格式、非固定格式、富格式文檔、長文本文檔
文檔抽取:實體、關系、表格、印章、簽名
文檔比對:關鍵信息、段落(luo)、表(biao)格、結構
圖像檢測、圖像分割
圖像質檢:模糊、反光、拍屏、水印、復印、篡改、變形、切邊、遠距離、遮擋
噪(zao)聲和干擾去(qu)除:圖像(xiang)噪(zao)聲、水印(yin)(yin)、陰影、印(yin)(yin)章、痕跡(ji)去(qu)除
文本分析:分詞、詞向量表示、依存句法分析、命名體識別、文本相似度
語言理(li)解:文本分類(lei)、信息(xi)抽取、情感分析
依托GPT、BERT等大規模(mo)語(yu)言模(mo)型(xing),基于海量文本語(yu)料自動學習,具備(bei)更好(hao)的文本理解和文本生成(cheng)能力(li)。
基于LayoutLM、ERNIE等大(da)規模(mo)文(wen)檔(dang)版式預訓(xun)練模(mo)型(xing),利用大(da)量文(wen)檔(dang)樣本(ben)自監督學(xue)習(xi),更(geng)好地理解各種文(wen)檔(dang)結構(gou)、內容(rong)和語(yu)義。
以大(da)規模語言模型和版式預訓(xun)練模型為基礎結合領(ling)域(yu)數據,通過下(xia)游任務學習(xi),快(kuai)速生(sheng)成(cheng)領(ling)域(yu)中小(xiao)規模模型,并輸出場景AI能力。
針對本地(di)化、私有(you)化等(deng)生(sheng)產(chan)部署場景,利用(yong)知識蒸餾等(deng)模型輕量化技術,解(jie)決算力局限性問題實現業務場景深(shen)度(du)融合(he)。