日前,由國家語言資源監測與研究中心指導、中國傳媒大學和商務印書館主辦的“中國語言生活皮書”編纂二十周年暨第四屆中國語言生活學術研討會在中國傳媒大學舉行。本次會議上,香港科技大學(廣州)作為牽頭單位,正式對外發布了語言服務大語言模型(1.0)。
語言服務大語言模型(1.0)是國家語言文字科研項目的階段性成果,由香港科技大學(廣州)牽頭完成,簡稱“語服通大語言模型”,意指語言服務通。該大語言模型面向國家語言服務體系構建的實際需求,聚焦多源異構語言數據與復雜中文語境,打造了服務可集成、知識可溯源的一體化大模型,為國家語言服務體系的智能化建設提供了應用示范。
![]()
項目帶頭人屈哨兵教授、陳雷教授與項目團隊
在服務層面,該大語言模型集成了國家語言資源服務平臺的各類語言資源與知識源,支持跨平臺資源訪問與服務聯動,實現了平臺內資源的集成與智能調度。系統能夠自動識別不同的服務請求類型,智能路由至相應的數據源和語言服務模塊,完成請求解析、資源調用與結果生成全過程,不僅具備語言知識問答能力,更能在語言研究、教育教學、政務傳播等垂直領域中提供專業支持。
在知識層面,該大語言模型依托國家語言生活知識庫,實現了回答內容的可溯源與可驗證。在回答問題時能夠基于文獻原文進行推理和引用,并在輸出中標注具體來源,通過點對點溯源方式,確保生成結果可驗證、可引用,以及模型的學術與公共可信度。其中,國家語言生活知識庫匯聚了近二十年來的國家語言生活報告和政策研究成果,經過專家標注、原始文檔數字結構化,形成了可檢索的知識單元。
![]()
項目帶頭人陳雷教授發言
內測階段,團隊邀請了語言學專家、教師、科研人員等多角色參與評測,結果顯示該大語言模型在問答準確率、調用準確率與溯源可靠性等方面均表現優異,滿意度較高。未來,語言服務大模型將持續拓展語言資源接入與應用的邊界,推動語言資源服務集成化、智能化、可信化發展,為國家數字中文建設提供有力支撐。
![]()
項目團隊帶頭人:屈哨兵教授
語服通大模型是依托香港科技大學(廣州)的大數據團隊,和國家語委設在廣州大學的“國家語言服務與粵港澳大灣區語言研究中心”的力量,和華中師范大學等有關高校及國家語委的科研機構一起發力,旨在人工智能時代以切實有效的方式,使國家語言文字資源更好地服務教育強國文化強國建設,展示數字中文的勃勃生機。
作為牽頭方,香港科技大學(廣州)給予了這個項目很大支持,倪明選校長親自參與了課題的開題,并部署學校資源支持,一直關注課題進展,為國家發展貢獻學校力量。
此次在《中國語言生活狀況報告》(綠皮書)20周年學術研討會上,我們發布了語服通大模型的1.0版本。接下來,我們將廣泛聽取社會意見,對版本進行迭代升級,與時俱進地做好語言文字服務推進工作。
![]()
項目團隊帶頭人:陳雷教授
這一項目的誕生源于我們對國家語言資源服務平臺現狀的深入觀察和分析。目前,國家語言資源服務平臺已經積累了大量的語言資源和服務,但這些資源和服務呈現出分散的狀態,像是被鎖在一個“蓄水池”里,無法充分發揮它們的價值。為了打破這種“資源孤島”的局面,我們亟需對這些碎片化的服務進行整合,以便能夠對外提供一個統一、高效的語言資源服務。在這個背景下,我們啟動了“語服通”項目。我們利用了先進的大語言分析技術、語義檢索技術以及專注于特定領域的人工智能語言模型。依托國家語言資源服務平臺所積累的高質量數據和服務,我們致力于解決以下幾個核心問題:
首先,我們研究了如何將多源異構的數據進行融合。我們希望通過技術手段,把不同格式、不同來源的數據整合在一起,使它們能夠被統一管理和使用。其次,我們專注于特定領域的大模型訓練,研究國家語言知識的學習與生成。我們的目標是開發一個真正了解并能處理豐富的中文語言特色的智能系統。最后,我們關注在大語言模型下的跨平臺交互與服務集成問題。我們希望“語服通”能夠與其他平臺和系統順暢對接,提供無縫的服務體驗。
“語服通”不僅僅是一個技術創新的項目,更是我們對語言資源服務未來發展的美好愿景。通過這一平臺,我們希望能夠真正實現資源的高效利用,為更多用戶提供便利和支持。希望“語服通”能夠成為語言服務領域的一股新力量,為我們的語言資源開發和利用帶來新的可能性。
【香港科技大學(廣州)】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.