我所应用语言学研究室人员研发的《藏文自然语言处理平台》已经上线了,《藏语自然语言处理平台》展示了中国社科院民族所应用语言学研究室(部分人员来自原计算语言学研究室)研究人员多年的研究成果。研究内容涉及到藏文字符研究、词法分析、句法语义以及机器翻译等内容。该平台链接在民族所网站首页的右下侧《信息服务》专栏,先输入所网站地址(http://iea.cass.cn/index.htm),然后点击《藏文自然语言处理平台》,出现如下界面:
各栏目功能解释如下:
藏文与拉丁转写互转。这是早期藏语研究的一项基础内容。在2007年以前,我国藏文信息处理和藏语语言研究没有采用统一的藏文字符编码国际标准。为了实现资源共享,许多单位采用了藏文拉丁转写进行研究;拉丁转写也为读不懂藏文和不会键盘输入的科研人员提供了便利。本平台藏文与拉丁转写之间的互转可以为不同目的的研究人员提供服务。
藏文文本拉萨音音标转换。最近几年,藏语语音识别研究成为研究机构和一些企业关注的热点。但是同时具有文本、音频和国际音标转写的资源十分有限,不能满足语音识别的要求。我们根据文本与语音之间的对应关系,通过规则和统计方法把藏文文本自动转写成国际音标,可以实现文本自动转换成国际音标。
藏文文本分词。分词是自然语言处理中最基本的研究内容。在书写藏文文本时,词与词之间没有空格,计算机处理语言文本时,首先需要把一个藏文字串序列切分成一个一个单独的词,这个切分过程就是自动分词。藏语自动分词研究开始于上世纪八十年代,经历了词典匹配分词、组块分词和统计分词三个阶段。当前藏语分词效果已经有了很大的提高,但是仍然没有公开发布过藏语分词软件。我们研究室从2002年开始研究藏语分词,取得了不少成果,积累了不少经验。本平台采用了条件随机场模型,训练语料库约一百万词,全部进行了分词校对,分词准确率约95%。分词训练语料和分词模型已经在多个单位使用,效果良好。
藏文字性标注。基于词级的词性标注模型总会遇到未登录词的问题。为了解决这个问题,我们试图缩小标注单位,把藏文的字作为标注单元,然后通过字构词的规则推断部分未登录词的词性。本项研究选择了中小学藏文语文教材文本作为训练语料,构建了字、词的边界标记和类型标记语料库,约二十多万词的训练语料。字性标注语料库规模还需要进一步增加,而且在字性校正时,需要有高水平的藏语知识,目前的标注准确率在90%左右,我们将继续努力,不断完善。
分词标注一体化。藏语词性标注研究已经取得了一些成果,但是同样也存在较多的问题,一是各家的词性标注规范不一致,二是词性标注的训练、测试语料不一致,三是都没有公开各自的标注系统。我们采用了分词标注一体化研究思路,实验结果表明一体化分词标注的结果要比分步进行好。本平台展示的一体化模型训练材料使用了民族所应用语言室研制的分词标注语料库,语料规模约一百二万词。标注准确率约90%。
人名地名识别。人名、地名属于命名实体范畴,是自然语言处理中的重要研究内容。本平台展示的识别系统可以把任一一篇文本中的人名地名标注出来。人名地名识别效果好坏与分词准确率的高低有密切关系。本系统的识别准确率大约维持在85%-90%,不同类型的文本识别效果存在一定的差异。
句法语义。展示了我们正在构建的短语结构树库。构建句法树库十分艰难,一是没有现成的藏语句法树库可以使用;二是能够参与写句法树库的人员极少,因此进展缓慢。目前还没完成自动句法分析系统;同时考虑到材料十分宝贵,没有展示太多的句子。
语言调查。展示了拉萨藏语3000词汇的录音,提供给对藏语感兴趣的学者使用,我们也采用自动处理的方式对音频材料进行标注,目前尚未免费提供;如果有需要,可以与我们联系。平台中随后将陆续提供更多的藏语方言材料。
语音数据。展示部分句子级的语音标注材料。我们与天津大学合作完成了3100句藏语(卫藏方言)口语句子的文本和音频材料,共计30人的录音并进行了音频标注。
机器翻译。机器翻译主要展示口语机器翻译。藏语机器翻译已经有多个展示系统,但大部分是新闻语料的翻译系统,我们提供的平台关注的是口语翻译,口语文本双语材料极为有限,给研究带来巨大困难。尽管目前翻译系统效果还不理想,但我们正努力一步步扩大资源,改善算法,把语言规则和统计结合起来,不断提高翻译效果。
本平台涉及藏语自然语言处理多个领域,正如其他语言处理一样,每种功能的效果受制于当前该语言处理的整体技术水平,我们力求做到当前最好,并努力不断改进,力争每隔一段时间更新一次,把最新的研究成果融入平台中,不断提高各种功能的效果。