NLPCC 2020舉行,京東智聯云發(fā)起“多模態(tài)自然語言處理研討會”

近年來,人工智能 (AI) 在涉及單一模態(tài)如語音、自然語言和視覺等領域,取得了重大突破。在單一模態(tài)的任務上,如物體識別、語音識別、機器翻譯等,AI 系統(tǒng)在特定數據集上的表現水平與人類相當。隨著單模態(tài)人工智能潛在問題的解決,研究人員意識到更高層次的AI任務往往涉及到跨多種模式的更復雜的信息處理。同時,局限于單一模態(tài)的研究往往不能充分利用跨模態(tài)信息。因此,研究多模態(tài)建模與學習方法具有重要的意義。

在本次國際自然語言處理與中文計算會議 (NLPCC 2020)上, 京東智聯云舉辦了第一屆“多模態(tài)自然語言處理研討會”。該研討會邀請了多位學術大咖進行學術分享,吸引了自然語言處理、多模態(tài)、圖像處理等多領域眾多學者參與。會中,各位學者就跨語言跨模態(tài)信息處理、多模態(tài)預訓練、AI與藝術、視覺與語言交互、多模態(tài)對話系統(tǒng)等領域的研究熱點和技術應用展開討論,反響熱烈。

  看點一 多模態(tài)自動摘要生成

多模態(tài)已成為新聞報道和信息交流的主要呈現形式,多模態(tài)自動摘要技術,旨在利用計算機自動實現從多個模態(tài)的信息中壓縮生成摘要的過程,可以廣泛應用于新聞推送和電商推薦等多個領域。

在本次研討會中,來自中科院自動化所的研究員張家俊老師,為大家介紹其所在的課題組近年來在多模態(tài)摘要方法和評價等方面的研究進展。張老師重點介紹了異源多模態(tài)摘要生成的研究方法變遷:從抽取式方法到生成式方法,再到目前融入多模態(tài)注意力機制的圖文式摘要生成方法等。同時,張老師也介紹了多模態(tài)自動摘要的自動評價方法: 綜合考慮文本和圖片重要性以及文本圖片相關性更加貼近人工打分。

NLPCC 2020舉行,京東智聯云發(fā)起“多模態(tài)自然語言處理研討會”

  看點二 多模態(tài)預訓練模型

預訓練模型的出現,使自然語言處理由原來的手工調參、依靠機器學習專家的階段,進入到可以大規(guī)模、可復制的大工業(yè)施展階段。此階段基于預訓練模型+微調機制,具備很高的可擴展性,展現出很高潛力。而當前研究也從單一語言擴展到多模態(tài)。

微軟亞洲研究院的高級研究員段楠博士為大家介紹了多模態(tài)預訓練模型的最新研究進展。他首先回顧了典型的預訓練模型。隨后,重點介紹了3種最新的多模態(tài)預訓練模型:Unicoder主要應用于跨語言的語言理解和生成任務;Unicoder VL專注于視頻語言任務,對視頻片段和對應的自然語言描述進行聯合建模;CodeBERT則關注在代碼語言任務。段博士也和與會學者一起討論了當前多模態(tài)預訓練的問題和可能的未來方向。

NLPCC 2020舉行,京東智聯云發(fā)起“多模態(tài)自然語言處理研討會”

  看點三 人工智能藝術與設計

“AI+藝術是一個跨界領域。藝術家的想象力往往啟發(fā)著科學家的創(chuàng)造力,而在AI時代,藝術家用人工智能機器學習相關技術來創(chuàng)作藝術,表達自己的想法和概念,設計師用神經網絡模型創(chuàng)造自己的設計工具和助手。”

清華大學未來實驗室博士后高峰分享了AI技術在藝術與設計領域的創(chuàng)新性應用。其團隊開發(fā)的道子智能繪畫系統(tǒng),利用計算機將自然圖像以風格遷移的方式轉變成藝術圖像,根據所得藝術圖像進行水墨畫繪作,實現技術與藝術間的跨界融合。高博士也介紹了道子在服裝設計、工業(yè)設計、裝置藝術等領域的探索成果。

NLPCC 2020舉行,京東智聯云發(fā)起“多模態(tài)自然語言處理研討會”

看點四 多模態(tài)智能分析

多模態(tài)智能分析是近期的研究熱點。來自北航的劉偲教授圍繞視覺和語言的交互介紹兩方面的內容進行了分享。她首先介紹了視覺關系檢測的研究,包括人-物關系檢測,人-物關系分割,視頻關系檢測等方面的內容。其次,她指出視覺指代表達和指代分割,對于智能機器人和交互式圖像編輯等實際應用有重要意義。 傳統(tǒng)的視覺指代表達方法采用兩階段式架構,模型復雜且速度受限,而傳統(tǒng)的指代分割方法聚焦于多模態(tài)特征融合,缺乏利用語言信息進行上下文建模和推理的能力。在本次討論中,她給出了針對性的解決方法。

NLPCC 2020舉行,京東智聯云發(fā)起“多模態(tài)自然語言處理研討會”

  看點五 多模態(tài)對話系統(tǒng)

對話系統(tǒng)一直是自然語言理解領域一個重要的研究內容,它可以使人們更便捷的與機器進行交互,而多模態(tài)的對話系統(tǒng)是非常重要的一個研究方向。

平安壽險AI研發(fā)團隊的楊海欽博士,分享了多模態(tài)對話系統(tǒng)在平安人壽各種場景的應用,包括保單回訪服務和視頻柜員客服等。在本次講座中,楊博士重點介紹了多模態(tài)對話系統(tǒng)的核心和創(chuàng)新技術,實際部署經驗以及如何應用該系統(tǒng)來降低運營成本,同時增加用戶體驗。

NLPCC 2020舉行,京東智聯云發(fā)起“多模態(tài)自然語言處理研討會”

在此次NLPCC 會議中,京東智聯云成功舉辦了第一屆“多模態(tài)自然語言處理研討會”,吸引眾多參會學者的積極參與和熱烈討論。同時京東AI研究院NLP算法科學家吳友政博士受大會邀請作“智能人機交互及其應用”的主題分享。另外京東AI研究院一篇論文被大會收錄并進行口頭匯報。(Paper link https://link.springer.com/chapter/10.1007/978-3-030-60450-9_6)

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )