您现在的位置:CNIS首页->国际合作->实质参与国际标准化->国际标准
国际标准项目:面向单语种及多语种信息处理的书面文本自动分词 第2部分:针对中日韩的分词
时间: 2007.06.12    部门:国际合作部   
关键词:   

    国际标准项目:Language resource management – Word segmentation of written texts for mono-lingual and multi-lingual information processing – part 2: Word segmentation for Chinese , Japanese

    世界上一部分语言(典型如汉语、日语、韩国语、泰国语、越南语等)的重要特征是其书面文本中词与词之间不存在显式的分割符(如英语中的空格)。这一特征造成了对书面文本理解的模糊。怎样准确地界定每个语素,成为语言学领域的热点问题。分词作为对这些语言进行基于文本内容的计算及其一系列相关应用(从机器翻译到知识管理)的关键因素,受到国际语言学家的关注。

    分词的最大困难来自此类语言的一个基本事实,即在其基本构词法中,词汇形态(尤其是复合形态)发挥着主导作用,词与语素之间、词与词组之间十分模糊。无论从语言学的角度还是普通大众的角度来看,造成这一问题的主要原因是上述语言中的任何一个语种,都缺乏一个质量高、覆盖能力强、为大家普遍认可的词表,缺乏广为接受的用于模型训练和系统性能评价的公共语料库。从而严重制约了人与人之间、人与计算机之间、计算机与计算机之间的通讯与交互。

    此项目提出面向信息处理的中、日、韩三种语言的书面文本的词语切分方案,将提高这三种语言的分词精度。并将对社会的信息化和语言的现代化进程产生积极的促进作用,将推动相关语言国家和地区间的文化交流和经济发展。
本项目制定的标准将于2008年在ISO出版。

    

     联系方式:chengyh@cnis.gov.cn 
   

    
 
附件:

  相关信息
  版权所有:中国标准化研究院 电 话:010-58811301
  网站维护:中国标准化院技术保障部 地 址:北京市海淀区知春路4号 地理位置
  技术支持:北京拓尔思信息技术有限公司 邮 编:100088
  京ICP备05026261 EMAIL:webmaster@cnis.gov.cn