2022年6月25日,南京師範大學中北學院信息科學與技術係蔣龍傑、常沁宇、謝虎吟、夏朱穎團隊參加了第一屆古代漢語分詞和詞性標注國際評測會議。曆經幾個月的學習與研究,該團隊在論文“Construction of Segmentation and Part of Speech Annotation Model in Ancient Chinese”提出的模型,在多個測評環境下取得優異成績,並獲得了EvaHan三等獎。
當下人工智能和數字人文浪潮風靡全球,現代漢語的智能處理與分析已取得很大成果。而古代漢語的自動分析研究相對薄弱,用於現代漢語處理的模型在古籍處理方麵的性能往往不佳。難以滿足國學、史學、文獻學、漢語史的研究和國學、傳統文化教育的實際需求。古漢語存在字詞、詞語、詞類的諸多爭議,致使古籍資源建設麵臨巨大困難。充分發揮深度學習模型的潛力,提升古籍處理的性能,是古漢語研究的應有之義。
第一屆國際古漢語分詞和詞性標注評測(EvaHan)是由國際語言資源與評測大會LREC2022的國際古代語言處理研討會(LT4HALA)主辦的,針對先秦漢語(經典的文言文)的分詞與詞性標注任務,在國際上展開統一的評測。EvaHan的古漢語評測競賽由南京師範大學文學院計算語言學與數字人文研究組和南京農業大學聯合組織,由北京大學數字人文研究中心、中國人工智能學會語言智能專委會、中國中文信息學會青年工作委員會、江蘇省人工智能學會自然語言處理專委會、江蘇省語言學會協助組織。該評測旨在綜合評價目前學界古漢語智能處理的研究成果,促進研究機構間科研成果的交流和共享。本次評測采用的數據由南京師範大學計算語言學團隊加工建設,以《左傳》 的前十卷標注文本為訓練集,後兩卷文本為封閉測試集,以《史記》和《資治通鑒》中的部分語料作為開放測試集。通過綜合封閉測試集和開放測試集的評分確定最終名次。此次評測共吸引了來自複旦、南大、哈工大、北理、北郵等重點高校和研究單位的參賽隊伍。
南京師範大學中北學院信息係蔣龍傑、常沁宇、謝虎吟、夏朱穎團隊以詞彙增強策略作為基線模型性能提升的方法。通過複旦大學提出的FLAT作為詞彙增強的主體,將FLAT原本使用的預訓練模型bert-wwm替換為封閉測試的Sikuroberta預訓練模型。在基於sikufenci工具包實現對《四庫全書》史部數據分詞的基礎上,利用word2vec模型訓練出50維的unigram,bigram和word級詞向量替換原始詞向量以實現古文詞語的詞彙增強,從而良好地將外部結構化的知識與深度學習序列標注任務相結合,構建出FLAT+sikuroberta模型,有效提升了模型序列標注性能。最終,該團隊提出的模型獲得三等獎的好成績。
此次比賽是南京師範大學中北學院學生組隊首次參加與自然語言處理相關的國際性測評會議。在參賽過程中,團隊在學術科研的未知領域嶄露頭角並從多所重點高校團隊取得佳績,激勵了南京師範大學中北學院學子敢於挑戰困難,敢於探索未知的決心和勇氣。希望同學們再接再厲,勇攀高峰!南京師範大學中北學院信息係也將在該領域繼續招募更多對AI應用技術該興趣的同學,培養AI領域高水平應用型人才。
中國社會科學網報道:
http://www.cssn.cn/zx/bwyc/202206/t20220628_5414421.shtml
團隊獲獎模型論文:
http://www.lrec-conf.org/proceedings/lrec2022/workshops/LT4HALA/pdf/2022.lt4hala2022-1.23.pdf
① 凡本站注明“稿件來源:beplay2网页登录”的所有文字、圖片和音視頻稿件,版權均屬本網所有,任何媒體、網站或個人未經本網協議授權不得轉載、鏈接、轉貼或以其他方式複製發表。已經本站協議授權的媒體、網站,在下載使用時必須注明“稿件來源:beplay2网页登录”,違者本站將依法追究責任。
② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉載稿,本站轉載出於非商業性的教育和科研之目的,並不意味著讚同其觀點或證實其內容的真實性。如轉載稿涉及版權等問題,請作者在兩周內速來電或來函聯係。