Nov
21
现代汉语语料库加工规范
——词语切分与词性标注
⒈ 前言
北大计算语言学研究所从1992 年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
Nov
21
郭 锐
On the notation of parts of speech in Chinese dictionary
Guo Rui
零 引言
本文讨论词典标注词性的必要性、标注词性的可能性和困难、现代汉语的内部分层和词性标注、词性标注应注意的问题四方面问题。
本文所依据的汉语词类体系是朱德熙、陆俭明、郭锐承担的国家七五社科项目“现代汉语词类研究”的体系。简介如下:
On the notation of parts of speech in Chinese dictionary
Guo Rui
零 引言
本文讨论词典标注词性的必要性、标注词性的可能性和困难、现代汉语的内部分层和词性标注、词性标注应注意的问题四方面问题。
本文所依据的汉语词类体系是朱德熙、陆俭明、郭锐承担的国家七五社科项目“现代汉语词类研究”的体系。简介如下:
Nov
21
Nov
20
1. 你让我滚,我滚了。你让我回来,对不起,滚远了
2. 流氓不可怕,就怕流氓有文化……
3. 走牛B的路,让傻B去说吧!
4. 开车无难事,只怕有新人!
5. 矿难在检讨中继续,楼价在控制中上升
6. XP不发威,你当我是DOS啊!
7. 英雄不问出路,流氓不看岁数!
8. 好好活着,因为我们会死很久!!!
9. 人又不聪明,还学人家秃顶!!
10. 没什么事不要找我,有事更不用找我
11 宁和明白人打一架,不跟sb说句话
12 再牛b的肖邦,也弹不出老子的悲伤!
13 只要锄头舞的好,那有墙角挖不倒?
14 连广告也信,读书读傻了
2. 流氓不可怕,就怕流氓有文化……
3. 走牛B的路,让傻B去说吧!
4. 开车无难事,只怕有新人!
5. 矿难在检讨中继续,楼价在控制中上升
6. XP不发威,你当我是DOS啊!
7. 英雄不问出路,流氓不看岁数!
8. 好好活着,因为我们会死很久!!!
9. 人又不聪明,还学人家秃顶!!
10. 没什么事不要找我,有事更不用找我
11 宁和明白人打一架,不跟sb说句话
12 再牛b的肖邦,也弹不出老子的悲伤!
13 只要锄头舞的好,那有墙角挖不倒?
14 连广告也信,读书读傻了
Nov
20