近年來,在“走出去”政策支持下,企業(yè)出海持續(xù)升溫。根據(jù)中國(guó)上市公司協(xié)會(huì)數(shù)據(jù),2024上半年我國(guó)上市公司實(shí)現(xiàn)海外業(yè)務(wù)收入3.83萬億元,同比增長(zhǎng)12.84%。隨著出海規(guī)模不斷擴(kuò)大,企業(yè)跨國(guó)間的交流也變得日益頻繁。為了應(yīng)對(duì)提交出口產(chǎn)品注冊(cè)資料、制作海外項(xiàng)目競(jìng)標(biāo)標(biāo)書等場(chǎng)景,合合信息智能文檔處理技術(shù)助力企業(yè)解析、翻譯電子文檔,推進(jìn)出海項(xiàng)目進(jìn)程。
中企出海,應(yīng)對(duì)合規(guī)審查是第一關(guān)。企業(yè)需要處理的文檔不僅數(shù)量龐大,語種繁多,格式也不統(tǒng)一,包含多種結(jié)構(gòu)布局,尤其是無線表、密集表、合并單元格等復(fù)雜數(shù)據(jù),增加了信息提取難度。合合信息文檔解析技術(shù)是智能文檔處理技術(shù)流程中的關(guān)鍵步驟,能夠在還原版面的基礎(chǔ)上,理解、抽取多語種文檔內(nèi)文字、表格、公式、圖片等元素,為企業(yè)出海提升文檔處理效率。
文檔解析巧解醫(yī)療企業(yè)產(chǎn)品注冊(cè)難題
醫(yī)療器械是生物醫(yī)藥行業(yè)出海中的“主力軍”。醫(yī)械產(chǎn)品在上市前,不少海外國(guó)家都會(huì)要求企業(yè)在線填報(bào)醫(yī)療器械注冊(cè)申報(bào)表格,提供企業(yè)介紹、產(chǎn)品規(guī)格、設(shè)計(jì)文件、測(cè)試數(shù)據(jù)和臨床數(shù)據(jù)等信息,單人需要耗費(fèi)數(shù)天進(jìn)行資料的整理和翻譯。
合合信息文檔解析技術(shù)作為“全科優(yōu)秀生”,支持一個(gè)接口解析PDF、Word(doc、docx)、常見圖片(jpg、png、webp、tiff)、HTML 等多種文件格式,可一次性獲取文字、表格、標(biāo)題層級(jí)、公式、手寫字符、圖片信息。同時(shí)還能夠做到按照人類閱讀的正常順序理解上下文關(guān)系,而非機(jī)械地從上到下讀取內(nèi)容。
以醫(yī)械產(chǎn)品說明書為例,文檔解析技術(shù)會(huì)根據(jù)版面布局合并在跨頁中被“攔腰斬?cái)唷钡亩温浜捅砀瘢又賲^(qū)分并提取純文本,表格內(nèi)的產(chǎn)品參數(shù)、型號(hào)、化學(xué)符號(hào)、數(shù)學(xué)單位等元素,保證數(shù)據(jù)解析結(jié)構(gòu)的完整性。
合合信息文檔解析技術(shù)精準(zhǔn)實(shí)現(xiàn)跨頁段落合并
在完成文檔解析后,企業(yè)還需將內(nèi)容翻譯成當(dāng)?shù)卣Z言版本用于醫(yī)械產(chǎn)品上市注冊(cè)審批,翻譯前的信息提取精度直接影響了翻譯精度。文檔解析技術(shù)能夠保持段落、表格等原始結(jié)構(gòu),減少翻譯后重排工作,同時(shí)支持批量、高效提取五十多種語言文檔內(nèi)的信息,可精確定位至某頁某行某個(gè)具體單詞,提升翻譯后的文檔一致性。
AI助力制造業(yè)規(guī)避侵權(quán)風(fēng)險(xiǎn)
制造業(yè)作為出?!袄吓啤毙袠I(yè),正在向具有高附加值的先進(jìn)制造業(yè)轉(zhuǎn)型,在此過程中,知識(shí)產(chǎn)權(quán)糾紛也成為了容易觸發(fā)爭(zhēng)議的領(lǐng)域之一?!吨袊?guó)專利調(diào)查報(bào)告》顯示,2023 年計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè)企業(yè)遭遇海外知識(shí)產(chǎn)權(quán)糾紛比例最高,影響企業(yè)海外發(fā)展前景。
對(duì)此,企業(yè)需要做好侵權(quán)風(fēng)險(xiǎn)分析,打造企業(yè)專利信息庫,定期檢索與本產(chǎn)品及技術(shù)密切相關(guān)的專利說明書、科研論文、國(guó)際標(biāo)準(zhǔn)等內(nèi)容。在專利庫搭建過程中,除了文本、表格和流程圖外,數(shù)學(xué)公式也是材料中常見的元素,以其復(fù)雜的結(jié)構(gòu)成為文檔解析過程中的“攔路虎”。
過去工作人員需要經(jīng)過數(shù)道繁雜程序?qū)竭M(jìn)行查找、辨認(rèn)和手工錄入,耗費(fèi)時(shí)間長(zhǎng)。文檔解析技術(shù)可單獨(dú)對(duì)公式類內(nèi)容進(jìn)行批量提取,支持識(shí)別Latex公式并導(dǎo)出為MathML Code等多種格式。為了進(jìn)一步提高數(shù)據(jù)精度,用戶可直接在界面上修改、編輯公式,方便后續(xù)數(shù)據(jù)應(yīng)用。
合合信息文檔解析技術(shù)批量識(shí)別公式
出海是中企尋求發(fā)展之道的重要路徑,然而藍(lán)海之下暗流涌動(dòng),企業(yè)出海仍面臨著市場(chǎng)、文化、法律等多方面的難題。合合信息會(huì)繼續(xù)挖掘智能文檔處理技術(shù)在出海場(chǎng)景中的深度應(yīng)用,幫助更多企業(yè)“揚(yáng)帆遠(yuǎn)航”。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )