近日,“尋找姓鴨的人”“因姓氏太罕見(jiàn)全村集體改姓鴨”登上微博熱搜,引發(fā)熱議。截至發(fā)稿,相關(guān)話題閱讀量達(dá)1.6億。這背后發(fā)生了什么?
故事還得從古代說(shuō)起。云南麗江傈僳族中有一個(gè)以鳥(niǎo)為圖騰的家族,姓“nià”,即上面一個(gè)鳥(niǎo)字,下面一個(gè)甲字,意為飛翔的鳥(niǎo)。
然而到了現(xiàn)代,這個(gè)字卻成為了生僻字,在信息系統(tǒng)中無(wú)法輸入和顯示,帶來(lái)種種不便,全村村民無(wú)奈只能改姓為“鴨”。
值得注意的是,他們不是個(gè)例。許多人的姓氏、家鄉(xiāng)地名不被信息時(shí)代接納,他們或是辦不了銀行卡,或是買不了火車票,甚至連最簡(jiǎn)單的在線支付都用不了。
據(jù)統(tǒng)計(jì),全國(guó)有6000萬(wàn)人名及大量地名、古籍、方言中包含生僻字,其中多數(shù)尚未實(shí)現(xiàn)數(shù)字化。
生僻字?jǐn)?shù)字化為什么這么難?
“最老的身份證上,姓氏是手寫(xiě)上去的。換二代身份證的時(shí)候,電腦里顯示不出來(lái),就通知我們改名了,直接打成了鴨子的鴨?!币晃弧皀ià”姓村民在接受媒體采訪時(shí)如此表示。
這位村民稱,自己并不喜歡姓“鴨”。但不喜歡也得改,不然就用不了微信,買不了火車票,醫(yī)院不能正常實(shí)名掛號(hào),社保公積金也難辦,總之所有需要實(shí)名認(rèn)證的地方都很麻煩。
據(jù)了解,1994年編纂的《中華字?!罚珍洕h字約87000個(gè),而我們手機(jī)、電腦能打出來(lái)的字,僅有3萬(wàn)個(gè)左右。
為什么會(huì)出現(xiàn)這種情況呢?
工信部電子標(biāo)準(zhǔn)院主任黃姍姍向TechWeb等表示,漢字與英語(yǔ)不同,英語(yǔ)是表音文字,漢字是表意(圖形)文字。信息系統(tǒng)要認(rèn)識(shí)漢字,需要有字、形和編碼三者建立對(duì)照表,某個(gè)漢字有形無(wú)碼,或者其編碼不被某個(gè)系統(tǒng)支持,就是信息時(shí)代的生僻字。
可以說(shuō),生僻字是表意字所特有的信息處理問(wèn)題。具體來(lái)看,漢字信息處理的難點(diǎn)來(lái)自四個(gè)方面:
一是漢字信息化編碼難度高。漢字與拉丁文字一樣,需要一字一形一碼,要對(duì)數(shù)萬(wàn)個(gè)漢字逐一進(jìn)行編碼、整理和考證工作,難度很高。
二是字形規(guī)范化工作量大。每個(gè)漢字都有其獨(dú)特的字形,確定每個(gè)字的規(guī)范字形并設(shè)計(jì)開(kāi)發(fā)字庫(kù)產(chǎn)品,也費(fèi)時(shí)費(fèi)力。
三是生僻字標(biāo)準(zhǔn)化專業(yè)復(fù)雜。尚有大量人名、地名生僻字未收錄于標(biāo)準(zhǔn),沒(méi)有獲得編碼,也就難以實(shí)現(xiàn)輸入、處理和輸出。
四是產(chǎn)品對(duì)標(biāo)準(zhǔn)的支持不充分。很多信息技術(shù)產(chǎn)品和服務(wù)系統(tǒng)只支持2萬(wàn)多字,忽視生僻字處理的需求。
要用電腦打出一個(gè)漢字,需要有對(duì)應(yīng)且全國(guó)統(tǒng)一的漢字編碼——對(duì)應(yīng)的字形——輸入法支持該漢字的輸入——系統(tǒng)或應(yīng)用支持該漢字的顯示,四個(gè)步驟中任何一環(huán)掉鏈子,都無(wú)法完成數(shù)字化。
nià姓村民何時(shí)能找回自己的姓?
由于“鴨”姓無(wú)法寄托“nià”姓的真正含義,現(xiàn)在當(dāng)?shù)氐男『⒊錾蠡径几鷭寢屝铡S小皀ià”姓村民在得知自己的姓氏登上熱搜后有些欣喜,也許能找到一個(gè)合適的解決辦法。
為解決這個(gè)難題,騰訊搜狗輸入法真的想出了辦法,嘗試用一個(gè)鍵盤(pán)和一個(gè)小程序來(lái)幫助“nià”姓村民找回自己的姓氏。
1.生僻字小程序
對(duì)于沒(méi)有編碼的生僻字,要從頭開(kāi)始,首先要做的是找到它們。所以,騰訊和工信部電子工業(yè)標(biāo)準(zhǔn)化研究院共同發(fā)布了“生僻字征集”小程序,用戶通過(guò)拍照上傳,就可以提交。
據(jù)騰訊輸入法部總經(jīng)理魯劍披露,4月20日“生僻字征集”小程序上線后,首日訪問(wèn)量突破63萬(wàn),用戶提交生僻字1404個(gè)。
大家提交的生僻字將經(jīng)過(guò)考證、審查、賦碼等一系列環(huán)節(jié),專業(yè)審核通過(guò)的生僻字將被賦碼并收錄進(jìn)國(guó)標(biāo)字庫(kù),并最終實(shí)現(xiàn)在電腦、手機(jī)等設(shè)備及信息系統(tǒng)中輸入與顯示。
2.生僻字鍵盤(pán)
針對(duì)已有編碼的文字,或是用戶只識(shí)生僻字字形、不知讀音的情況,騰訊搜狗輸入法開(kāi)發(fā)上線了“生僻字鍵盤(pán)”,通過(guò)拆解字形實(shí)現(xiàn)三種生僻字輸入方式,包括筆畫(huà)輸入、拼音輸入,以及“拼音+筆畫(huà)”的混合輸入。
同時(shí),騰訊搜狗輸入法還與字庫(kù)廠商合作,將已編碼的文字設(shè)計(jì)成字體包,供用戶下載使用。用戶就可以用搜狗輸入法打出生僻字,并在更多平臺(tái)上顯示了。
據(jù)騰訊方面透露,“nià”姓村民再過(guò)兩年,就可以打出自己的姓來(lái)了。這主要因?yàn)椤熬幋a還需要兩年左右才能公布,這是一個(gè)過(guò)程。”
One More Thing
上世紀(jì)60年代,隨著商用電腦的普及,人們開(kāi)始用計(jì)算機(jī)處理文字,但當(dāng)時(shí)的技術(shù)還不能有效處理英文以外的文字。直到1974年,我國(guó)“748”工程啟動(dòng),一批學(xué)者、專家前赴后繼,開(kāi)啟漢字信息化攻關(guān),漢字進(jìn)入信息化處理的時(shí)代。
1980年,全球第一個(gè)漢字編碼標(biāo)準(zhǔn)GB 2312《信息交換用漢字編碼字符集 基本集》發(fā)布,讓計(jì)算機(jī)處理漢字成為現(xiàn)實(shí)。此后,中文信息處理領(lǐng)域累計(jì)發(fā)布一百余項(xiàng)國(guó)家標(biāo)準(zhǔn),一些生僻字和少數(shù)民族的文字也得以進(jìn)入數(shù)字時(shí)代。
2022年7月,國(guó)家市場(chǎng)監(jiān)管總局批準(zhǔn)發(fā)布《信息技術(shù) 中文編碼字符集》(GB 18030-2022 國(guó)標(biāo)),新版標(biāo)準(zhǔn)共收錄漢字88115個(gè),比上一版增加錄入了1.7萬(wàn)余個(gè)生僻漢字,不僅收錄《通用規(guī)范漢字表》全部漢字,還可覆蓋我國(guó)絕大部分人名、地名用生僻字以及文獻(xiàn)、科技等專業(yè)領(lǐng)域的用字。新版標(biāo)準(zhǔn)將于2023年8月1日正式實(shí)施。
總體而言,解決生僻字難題,是難度高、周期長(zhǎng)的體系化改造,涉及相關(guān)方眾多。騰訊等企業(yè)愿意秉持“科技向善”,助力解決這一難題得到很多網(wǎng)友點(diǎn)贊。正如一位網(wǎng)友說(shuō)的,這是一件很有意義的“小事”,希望能一直做下去。
- 亞馬遜擬發(fā)射首批27顆衛(wèi)星挑戰(zhàn)SpaceX
- Apple Books被控虛假宣傳 蘋(píng)果面臨50億美元集體訴訟
- 鴻蒙版微信更新:多項(xiàng)重磅功能上線 HarmonyOS發(fā)展迎來(lái)“日日新”
- 亞馬遜競(jìng)購(gòu)TikTok美國(guó)業(yè)務(wù),1.7億用戶命運(yùn)4月5日揭曉?
- 英偉達(dá)Blackwell Ultra采用液冷散熱,液冷市場(chǎng)“奇點(diǎn)”臨近
- 美團(tuán):開(kāi)始試點(diǎn)為騎手補(bǔ)貼養(yǎng)老保險(xiǎn) 后續(xù)逐步覆蓋至全國(guó)
- 半導(dǎo)體設(shè)備國(guó)產(chǎn)化迫在眉睫,新凱來(lái)“軟硬協(xié)同”模式引關(guān)注
- 開(kāi)啟美育教育新范式,網(wǎng)龍首創(chuàng)“數(shù)字化細(xì)節(jié)重構(gòu)”藝術(shù)形式亮相世界級(jí)大展
- 出海再提速!比亞迪“西安號(hào)”滾裝船正式下水,“深圳號(hào)”即將首航
- 消息稱阿里新模型Qwen3下周發(fā)布
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。