解析穩(wěn)定率達(dá)99.99%!合合信息“大模型加速器2.0”助力AI打破“幻覺(jué)”

隨著大模型在社會(huì)應(yīng)用中逐漸普及,人們?cè)谙硎鼙憷耐瑫r(shí),也面臨著“AI 幻覺(jué)”產(chǎn)生的風(fēng)險(xiǎn)。訓(xùn)練數(shù)據(jù)是影響大模型“認(rèn)知能力”的關(guān)鍵要素,近期,上海合合信息科技股份有限公司(簡(jiǎn)稱“合合信息”)TextIn“大模型加速器 2.0”版本正式上線,基于領(lǐng)先的智能文檔處理技術(shù),對(duì)復(fù)雜文檔的版式、布局和元素進(jìn)行精準(zhǔn)解析及結(jié)構(gòu)化處理,從數(shù)據(jù)源頭降低大模型“幻覺(jué)”風(fēng)險(xiǎn),讓大模型在與人類的溝通中“更靠譜”。

“大模型加速器 2.0”文檔解析引擎助力知識(shí)庫(kù)理解手寫(xiě)筆記示意圖

據(jù)悉,升級(jí)后的“大模型加速器”在復(fù)雜版面理解、表格及圖表處理、內(nèi)容溯源等能力上實(shí)現(xiàn)新突破,可精準(zhǔn)識(shí)別上千種文檔中的跨頁(yè)表格、合并單元格、密集表格、手寫(xiě)字符及公式,解析穩(wěn)定率達(dá)99.99%,單頁(yè)處理耗時(shí)較行業(yè)可比產(chǎn)品降低超30%;可“逆還原”十余種專業(yè)圖表數(shù)據(jù),并將其轉(zhuǎn)化為大模型可理解的結(jié)構(gòu)化數(shù)據(jù)。此外,“大模型加速器 2.0”版本新增知識(shí)庫(kù)系列開(kāi)源組件,助力醫(yī)療、制造、教育等行業(yè)開(kāi)發(fā)者構(gòu)建個(gè)性化的知識(shí)庫(kù)。

文檔解析技術(shù)助力教育大模型建設(shè)

大模型需要不斷“吸收”正確的專業(yè)知識(shí),才能應(yīng)對(duì)實(shí)際應(yīng)用問(wèn)題。合合信息技術(shù)團(tuán)隊(duì)成員表示,在處理年報(bào)、論文、實(shí)驗(yàn)室報(bào)告等專業(yè)文檔的過(guò)程中,一個(gè)符號(hào)的解析失誤,便可能“誤導(dǎo)”大模型,得出與事實(shí)相悖的結(jié)論。可信性的缺失,也制約了大模型在實(shí)際應(yīng)用場(chǎng)景中的縱深拓展。

賽爾教育科技發(fā)展有限公司(簡(jiǎn)稱“賽爾教育”)系“中國(guó)教育和科研計(jì)算機(jī)網(wǎng)CERNET”的運(yùn)營(yíng)公司賽爾網(wǎng)絡(luò)的重要子公司,是教育國(guó)際化、教育信息化、數(shù)字化教育方案的提供商。賽爾教育CTO、教育數(shù)字化事業(yè)部總經(jīng)理?xiàng)盍痔岬?,教育行業(yè)中所涉及的文檔格式多樣,在內(nèi)容上也包含了表格、公式、手寫(xiě)字符、多語(yǔ)言文字等信息。如何高效準(zhǔn)確地提取各類文檔中的文本信息,并非易事。

“教育行業(yè)的大模型建設(shè)工作中,數(shù)據(jù)的數(shù)量和質(zhì)量起著決定性作用。我們做了很多嘗試,模型的速度和準(zhǔn)確性都達(dá)不到要求,嚴(yán)重影響科研工作的進(jìn)展?!睏盍直硎?,行業(yè)知識(shí)庫(kù)的構(gòu)建基于大量文檔的文本信息提取,需要高效率、高準(zhǔn)確率的工具。合合信息文檔解析技術(shù)提供了專業(yè)的技術(shù)支持和服務(wù),有效解決了文檔處理過(guò)程中的問(wèn)題。

在“大模型加速器”的支持下,合合信息與賽爾教育共同協(xié)作,提升大模型對(duì)復(fù)雜版面、元素的“理解力”,使其按照人類正常的閱讀順序識(shí)別文檔結(jié)構(gòu),智能劃分標(biāo)題、段落、表格和圖表等內(nèi)容塊,幫助大模型理解版面、內(nèi)容間的對(duì)應(yīng)關(guān)系,減少AI“幻覺(jué)”現(xiàn)象。

圖表解析模塊將圖表還原為表格數(shù)據(jù)

除了復(fù)雜的版面布局,種類繁多、空間結(jié)構(gòu)復(fù)雜的圖表元素也是解析難點(diǎn)所在?!按竽P图铀倨?.0”圖表解析模塊可智能提取多種圖表中的關(guān)鍵數(shù)據(jù)點(diǎn)、坐標(biāo)軸信息、圖例說(shuō)明等,在精準(zhǔn)解析不同類型圖表數(shù)據(jù)的基礎(chǔ)上,將其還原為一組完整的Excel表格數(shù)據(jù),作用于教育行業(yè)大模型微調(diào),學(xué)科知識(shí)庫(kù)建設(shè)、智能審閱等環(huán)節(jié)。

智能溯源讓大模型用得更“安心”

近期,多家券商機(jī)構(gòu)紛紛宣布接入大模型,幫助分析師、行業(yè)研究員等專業(yè)人士提高工作效率。為幫助用戶簡(jiǎn)化專業(yè)文檔數(shù)據(jù)篩選和數(shù)據(jù)抽取流程,提升文檔內(nèi)容解讀效率與準(zhǔn)確率,“大模型加速器 2.0” 上線了知識(shí)庫(kù)產(chǎn)品組件,支持復(fù)雜文檔的智能問(wèn)答、總結(jié)與檢索。

為了讓行業(yè)“安心”使用大模型,知識(shí)庫(kù)產(chǎn)品推出溯源功能,通過(guò)在“投喂”給知識(shí)庫(kù)的Markdown及JSON文件中標(biāo)記頁(yè)碼、坐標(biāo)等空間位置信息,實(shí)現(xiàn)對(duì)句子、段落的精確溯源,為用戶提供了一個(gè)快速檢驗(yàn)的路徑。以財(cái)務(wù)分析為例,大模型在多份高達(dá)上千頁(yè)的財(cái)報(bào)文件中找到收入、利潤(rùn)等關(guān)鍵數(shù)據(jù)后,券商分析師可利用溯源功能定位原表格,對(duì)信息進(jìn)行復(fù)核,防止錯(cuò)誤、遺漏。

知識(shí)庫(kù)對(duì)財(cái)報(bào)數(shù)據(jù)所在表格進(jìn)行精準(zhǔn)溯源

目前,知識(shí)庫(kù)組件已面向開(kāi)發(fā)者開(kāi)源,幫助其根據(jù)自身需要快速構(gòu)建個(gè)性化行業(yè)知識(shí)庫(kù)。此前,合合信息已開(kāi)源智能文檔處理“百寶箱”系列產(chǎn)品,解決文檔解析精度低、解析效果評(píng)估難等問(wèn)題,開(kāi)發(fā)者可根據(jù)研發(fā)需求靈活搭配使用。未來(lái),“大模型加速器”將持續(xù)優(yōu)化迭代,助力大模型在各行各業(yè)中“百花齊放”。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2025-03-21
解析穩(wěn)定率達(dá)99.99%!合合信息“大模型加速器2.0”助力AI打破“幻覺(jué)”
從數(shù)據(jù)源頭降低大模型“幻覺(jué)”風(fēng)險(xiǎn)
Scan me!

長(zhǎng)按掃碼 閱讀全文