作為文檔圖像分析識別領(lǐng)域最重要的國際會議之一,國際文檔分析與識別會議ICDAR 2023(International Conference on Document Analysis and Recognition)近期傳來好消息:
科大訊飛研究院與中科大語音及語言信息處理國家工程研究中心(以下簡稱研究中心)在多行公式識別、文檔信息定位與提取、結(jié)構(gòu)化文本信息抽取三項比賽中獲得四個冠軍。
MLHME之冠:聚焦“多行書寫”,復(fù)雜度上再突破
MLHME(多行公式識別比賽)考查輸入包含手寫數(shù)學(xué)公式的圖像后,算法輸出對應(yīng)LaTex字符串正確率。值得一提的是,相比此前數(shù)學(xué)公式識別賽事,此次比賽業(yè)內(nèi)首次將“多行書寫”設(shè)為主要挑戰(zhàn)對象,且不同于之前識別掃描、在線手寫的公式,本次以識別拍照的手寫多行公式為主。
最終,科大訊飛研究院圖文識別團(tuán)隊以67.9%的成績拿下冠軍,并在主要評價指標(biāo)——公式召回率(Expression Recall,即統(tǒng)計識別正確的樣本數(shù)占總測試樣本數(shù)的比例)上大幅超越其他參賽團(tuán)隊。
公式召回率與榜單中Submit Results相對應(yīng)
多行公式相比單行結(jié)構(gòu)復(fù)雜度更高,同一個字符在公式里多次出現(xiàn)時尺寸大小也會有變化;同時,比賽使用的數(shù)據(jù)集來自真實(shí)場景,拍照的手寫公式圖片更是存在質(zhì)量低下、背景干擾、文字干擾、涂抹和批注干擾等問題。這些因素讓比賽難度陡增。
多行公式結(jié)構(gòu)復(fù)雜
圖片質(zhì)量不高、批改干擾
針對多行公式結(jié)構(gòu)復(fù)雜問題,團(tuán)隊使用大卷積核的Conv2former作為編碼器結(jié)構(gòu),擴(kuò)大了模型的視野,更好地捕捉多行公式的結(jié)構(gòu)特征;創(chuàng)新性提出基于transformer的結(jié)構(gòu)化序列解碼器SSD,顯式對多行公式內(nèi)部的層次關(guān)系做了精細(xì)化建模,極大提升了復(fù)雜結(jié)構(gòu)的泛化性,更好地建模了結(jié)構(gòu)化語義。
針對圖片質(zhì)量問題所引起的字符歧義問題,團(tuán)隊創(chuàng)新性提出了語義增強(qiáng)的解碼器訓(xùn)練算法,通過語義和視覺的聯(lián)合訓(xùn)練,讓解碼器具備內(nèi)在的領(lǐng)域知識。當(dāng)字符難以辨認(rèn)時,模型能夠自適應(yīng)利用領(lǐng)域知識做出推理,給出最合理的識別結(jié)果。
針對字符尺寸變化大的問題,團(tuán)隊提出了一種自適應(yīng)字符尺度估計算法和多尺度融合解碼策略,極大提升了模型對字符大小變化的魯棒性。
DocILE之冠:“行里挑一”,文檔信息定位與提取比賽雙賽道登頂榜首
DocILE(文檔信息定位與提取比賽)評估機(jī)器學(xué)習(xí)方法在半結(jié)構(gòu)化的商業(yè)文檔中,對關(guān)鍵信息定位、提取和行項識別的性能。
該賽事分為KILE和LIR兩個賽道任務(wù),KILE任務(wù)需要定位文檔中預(yù)定義類別的關(guān)鍵信息位置,LIR任務(wù)需要在前者基礎(chǔ)上,進(jìn)一步將每個關(guān)鍵信息分組為不同的行項條目(Line Item),比如表格中某一行單個對象(數(shù)量、價格)等。訊飛與研究中心最終收獲雙賽道冠軍。
KILE賽道榜單
LIR賽道榜單
左為KILE賽道說明,右為LIR賽道說明
從賽事官方給出的任務(wù)圖示可以看出,文檔中待抽取的信息種類非常繁雜。其中,KILE任務(wù)不僅需要提取預(yù)定義類別的關(guān)鍵信息,還要得到關(guān)鍵信息的具體位置;LIR任務(wù)中,一個行項在單個表格中可能有多行文本。加上此次賽事數(shù)據(jù)集中信息種類多、文檔版式復(fù)雜多樣,大大增加了挑戰(zhàn)性。
聯(lián)合團(tuán)隊在算法層面提出了兩項技術(shù)創(chuàng)新方案:
預(yù)訓(xùn)練階段設(shè)計了基于OCR質(zhì)量的文檔過濾器,從主辦方提供的無標(biāo)注文檔中提取出274萬頁的文檔圖像,隨后通過預(yù)訓(xùn)練語言模型獲取文檔中各文本行的語義表征,并采用掩碼語句表征恢復(fù)任務(wù)進(jìn)行不同Top-K(GraphDoc模型中關(guān)于文檔的注意力范圍的一個超參數(shù))配置下的預(yù)訓(xùn)練。
在數(shù)據(jù)集微調(diào)階段,團(tuán)隊使用了預(yù)訓(xùn)練后的GraphDoc提取文本框的多模態(tài)表征,并進(jìn)行分類操作。在分類結(jié)果的基礎(chǔ)上,將多模態(tài)表征送入低層注意力融合模塊進(jìn)行實(shí)例的聚合,在實(shí)例聚集的基礎(chǔ)上,使用高層注意力融合模塊實(shí)現(xiàn)行項實(shí)例的聚集,所提出的注意力融合模塊結(jié)構(gòu)相同、但彼此不共享參數(shù),可以同時用于KILE和LIR任務(wù)且具有很好的效果。
SVRD之冠:零樣本票證結(jié)構(gòu)化信息抽取任務(wù)第一,預(yù)訓(xùn)練模型大考驗
SVRD(結(jié)構(gòu)化文本信息抽取)比賽分為4個賽道子任務(wù),訊飛與研究中心在難度頗高的零樣本結(jié)構(gòu)化信息抽取子賽道(Task3:E2E Zero-shot Structured Text Extraction)獲得第一。
榜單排名
在官方指定不同類型發(fā)票需要提取的關(guān)鍵要素背景下,該賽道要求參賽團(tuán)隊利用模型輸出這些關(guān)鍵要素在圖片中的對應(yīng)內(nèi)容,“零樣本”則代表訓(xùn)練集和測試集的發(fā)票類型并無交集;賽道考查模型端到端預(yù)測準(zhǔn)確率,取score1、score2加權(quán)平均值作為最終評價指標(biāo)。
零樣本對預(yù)訓(xùn)練模型能力提出了更高要求。同時,比賽使用的發(fā)票版式多樣,乘車站點(diǎn)、發(fā)車時間等要素在不同版式中的名稱各不相同,發(fā)票照片還存在背景干擾、反光、文字重疊等問題,進(jìn)一步提升了識別和抽取難度。
不同版式的發(fā)票
條紋背景干擾的發(fā)票
團(tuán)隊首先對要素抽取模型采用復(fù)制-生成雙分支解碼策略,在前端OCR結(jié)果置信度較高的情況下直接復(fù)制OCR結(jié)果,在OCR結(jié)果置信度較低的情況下生成新的預(yù)測結(jié)果,以此緩解前端OCR模型引入的識別錯誤。
此外,團(tuán)隊還基于OCR結(jié)果提取句子級的graphdoc特征作為要素抽取模型輸入,該特征融合了圖像、文本、位置、版面多模態(tài)特征,相比于單模態(tài)的純文本輸入具有更強(qiáng)的特征表示。
在此基礎(chǔ)上,團(tuán)隊還結(jié)合了UniLM、LiLT、DocPrompt多個要素抽取模型在不同場景、不同語種上的性能優(yōu)勢進(jìn)一步提升了最終的要素抽取效果。
教育、金融、醫(yī)療等已落地應(yīng)用,助力大模型提升多模態(tài)能力
此次選擇ICDAR 2023的相關(guān)賽事進(jìn)行挑戰(zhàn),來源于科大訊飛在實(shí)際業(yè)務(wù)中的真實(shí)場景需求;賽事相關(guān)的技術(shù)也已經(jīng)深入教育、金融、醫(yī)療、司法、智能硬件等領(lǐng)域,賦能多項業(yè)務(wù)與產(chǎn)品。
在教育領(lǐng)域,手寫公式識別的技術(shù)能力被高頻使用,機(jī)器能給予精準(zhǔn)的識別、判斷和批改。例如訊飛AI學(xué)習(xí)機(jī)中的個性化精準(zhǔn)學(xué)、AI診斷;老師上課所使用的“訊飛智慧窗”教學(xué)大屏、學(xué)生的個性化學(xué)習(xí)手冊等,都已發(fā)揮了很大成效;
不久前科大訊飛全球1024開發(fā)者節(jié)主論壇上發(fā)布的星火科研助手,三大核心功能之一的論文研讀可實(shí)現(xiàn)智能解讀論文,快速回答相關(guān)問題。后續(xù)在高精度公式識別基礎(chǔ)上進(jìn)階有機(jī)化學(xué)結(jié)構(gòu)式、圖形、圖標(biāo)、流程圖、表格等結(jié)構(gòu)化場景識別的效果,這項功能也會更好助力科研工作者提升效率;
文檔信息定位與抽取技術(shù)則在金融領(lǐng)域得到了廣泛運(yùn)用,例如合同要素抽取與審核、銀行票據(jù)要素抽取、營銷內(nèi)容消保審查等場景,可以實(shí)現(xiàn)文檔或文件的數(shù)據(jù)解析、信息抽取和比對審核等功能,從而輔助業(yè)務(wù)數(shù)據(jù)的快速錄入、抽取、比對,實(shí)現(xiàn)審核過程的降本增效;
同樣在此次1024主論壇上發(fā)布的個人AI健康助手——訊飛曉醫(yī),不僅能掃描檢查單、化驗單識別后給出分析和建議,還可以掃描藥盒后進(jìn)一步主動詢問、給出輔助用藥建議。對于體檢報告,拍照上傳后訊飛曉醫(yī)可以識別全維度關(guān)鍵信息,聯(lián)合異常指標(biāo)綜合解讀,主動詢問發(fā)現(xiàn)更多問題給予幫助。當(dāng)然,背后也是文檔信息定位與抽取技術(shù)的支持。
從單字識別、文本行識別,到難度更高的二維復(fù)雜結(jié)構(gòu)識別、篇章級識別,科大訊飛的圖文識別相關(guān)技術(shù)在算法上持續(xù)迭代突破,更強(qiáng)的圖文識別技術(shù)還能使多模態(tài)大模型在圖像描述、圖像問答、識圖創(chuàng)作、文檔理解與處理上展現(xiàn)出更好的效果和潛力;
與此同時,圖文識別技術(shù)也結(jié)合語音識別、語音合成、機(jī)器翻譯等技術(shù)形成系統(tǒng)性創(chuàng)新,賦能產(chǎn)品應(yīng)用后展現(xiàn)出更強(qiáng)大的功能與更明顯的價值優(yōu)勢,相關(guān)項目也獲得了2022年度吳文俊人工智能科技進(jìn)步獎一等獎。新一程里,在ICDAR 2023數(shù)個比賽中“多點(diǎn)開花”,既是科大訊飛在圖文識別理解技術(shù)深度上持續(xù)進(jìn)步的回饋,也是廣度上不斷鋪開的肯定。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )