首页 >> 专题 >> 学科专题 >> 语言学专题 >> 当汉语研究遇到人工智能 >> 汉语信息处理主要成就
机器词典的建造
2015年09月28日 13:58 来源:《当代语言学》第3卷2001年第1期 作者:冯志伟 字号

内容摘要:机器词典是汉语信息处理中最重要的语言资源。

关键词:机器词典;现代汉语;信息处理;词性;词典编纂;冯志伟

作者简介:

  机器词典是最重要的语言资源。北京大学计算语言学研究所俞士汝、朱学锋等开发的现代汉语语法知识库,就是一种机器词典。这项研究与北京大学中文系密切合作进行,在现代汉语语法知识库的基础上,他们又编写了《现代汉语语法信息词典》。这部机器词典以语法一义项相结合的原则以及词典编纂的普遍原则,选取了5万多个词语,又根据语法功能分布的原则,建立了面向语言信息处理的现代汉语词语分类体系,完成了这5万多个词的归类.确定了每个词的词性。由于属于同一类的各个词语的语法属性仍然有很多差别,采用了关系数据库文件格式来描述每一个词语及其语法属性的二维关系.机器词典中共有犯个数据文件,其中包含全部词语的总库l,各类词库23个。总库设21个属性字段,各类词库又分设若干属性字段,例如,名词库设27个属性字段,动词库设46个属性字段,等等。除此之外,某些类词库下面又设分库。例如,动词库下面设6个分库,代词库下面设2个分库,分别描述每一个子类的更细微的语法属性。所有的库都可以根据主关键字段(词语+词类十同形)进行连接。这样一来,32个数据库文件构成了有上位下位继承关系的“树”,在这样的树中,子结点可以继承父结点的全部信息,将父结点与子结点连接起来就可以得到关于每个词的更加全面的信息。如果把每个库所包含的词语数同该库的属性字段数的乘积定义为该库的“信息量”,那么,现在总库的信息量约为60,32个库的信息量达250万。这些信息量所需的存储空间约为16兆字节。 

  这部语法信息词典已经为国内外不少计算语言学研究单位所采用,作为重要的语言资源。他们建立了一个比较完善的现代汉语词语的语法功能分类体系,把现代汉语的基本词类分为18(括号内的英文字母是其代码): 

  这些基本词类可以合并成为较大的词类。名词、时间词、处所词、方位词、数词、量词统称体词,动词、形容词、状态词统称谓词。代词一部分属于体词,一部分属于谓词。体词、谓词、区别词、副词又合称实词。介词、连词、助词、语气词合称虚词。实词和虚词是汉语的两个最大的词类。此外,还有拟声词和叹词,它们被列在这两大词类之外。当然,18个基本词类还可以再划分小类,这里不再细说。 

分享到: 0 转载请注明来源:中国社会科学网 (责编:王婷婷)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们