您现在的位置:CNIS首页->国际合作->实质参与国际标准化->国际标准
国际标准项目:面向单语种及多语种信息处理的书面文本自动分词 第1部分:一般原则与方法
时间: 2007.06.12    部门:国际合作部   
关键词:   

    国际标准项目:Language resource management - Word segmentation of written texts for mono-lingual and multi-lingual information processing – part 1: General principes and methods

    世界上一部分语言(典型如汉语、日语、韩国语、泰国语、越南语等)的重要特征是其书面文本中词与词之间不存在显式的分割符(如英语中的空格)。这一特征造成了对书面文本理解的模糊。怎样准确地界定每个语素,成为语言学领域的热点问题。分词作为对这些语言进行基于文本内容的计算及其一系列相关应用(从机器翻译到知识管理)的关键因素,受到国际语言学家的关注。
分词的最大困难来自此类语言的一个基本事实,即在其基本构词法中,词汇形态(尤其是复合形态)发挥着主导作用,词与语素之间、词与词组之间十分模糊。无论从语言学的角度还是普通大众的角度来看,造成这一问题的主要原因是上述语言中的任何一个语种,都缺乏一个质量高、覆盖能力强、为大家普遍认可的词表,缺乏广为接受的用于模型训练和系统性能评价的公共语料库。从而严重制约了人与人之间、人与计算机之间、计算机与计算机之间的通讯与交互。

    为解决以上问题,本项目将建立适用于国际上任何此类语言分词的一般原则与方法,包括成词性判断的语言学的一般法则、多字复合词是否‘结合紧密、使用频繁’的评价方法、语料库的定量分析在词表构造中的作用、书面文本分词的元模型等。
本项目制定的标准将于2008年在ISO出版。

    

        联系方式:chengyh@cnis.gov.cn 
    

    
 
附件:

  相关信息
  版权所有:中国标准化研究院 电 话:010-58811301
  网站维护:中国标准化院技术保障部 地 址:北京市海淀区知春路4号 地理位置
  技术支持:北京拓尔思信息技术有限公司 邮 编:100088
  京ICP备05026261 EMAIL:webmaster@cnis.gov.cn