|
国际标准项目:Language resource management – Word segmentation of written texts for mono-lingual and multi-lingual information processing – part 2: Word segmentation for Chinese , Japanese
世界上一部分语言(典型如汉语、日语、韩国语、泰国语、越南语等)的重要特征是其书面文本中词与词之间不存在显式的分割符(如英语中的空格)。这一特征造成了对书面文本理解的模糊。怎样准确地界定每个语素,成为语言学领域的热点问题。分词作为对这些语言进行基于文本内容的计算及其一系列相关应用(从机器翻译到知识管理)的关键因素,受到国际语言学家的关注。
分词的最大困难来自此类语言的一个基本事实,即在其基本构词法中,词汇形态(尤其是复合形态)发挥着主导作用,词与语素之间、词与词组之间十分模糊。无论从语言学的角度还是普通大众的角度来看,造成这一问题的主要原因是上述语言中的任何一个语种,都缺乏一个质量高、覆盖能力强、为大家普遍认可的词表,缺乏广为接受的用于模型训练和系统性能评价的公共语料库。从而严重制约了人与人之间、人与计算机之间、计算机与计算机之间的通讯与交互。
此项目提出面向信息处理的中、日、韩三种语言的书面文本的词语切分方案,将提高这三种语言的分词精度。并将对社会的信息化和语言的现代化进程产生积极的促进作用,将推动相关语言国家和地区间的文化交流和经济发展。 本项目制定的标准将于2008年在ISO出版。
联系方式:chengyh@cnis.gov.cn |