分页: 1/3 第一页 1 2 3 下页 最后页 [ 显示模式: 摘要 | 列表 ]
Nov 27
一:首先介绍问题起源
每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的扩展 ASCII码, 中国的 GB2312-80,日本的 JIS 等,作为该国家/区域内信息处理的基础,有着统一编码的重要作用。字符编码集按长度分为 SBCS(单字节字符集),DBCS(双字节字符集)两大类。早期的软件(尤其是操作系统),为了解决本地字符信息的计算机处理,出现了各种本地化版本(L10N),为了区分,引进了 LANG, Codepage 等概念。但是由于各个本地字符集代码范围重叠,相互间信息交换困难;软件各个本地化版本独立维护成本较高。因此有必要将本地化工作中的共性抽取出来,作一致处理,将特别的本地化处理内容降低到最少。这也就是所谓的国际化(I18N)。各种语言信息被进一步规范为 Locale 信息。处理的底层字符集变成了几乎包含了所有字形的 Unicode。现在大部分具有国际化特征的软件核心字符处理都是以 Unicode 为基础的,在软件运行时根据当时的 Locale/Lang/Codepage 设置
确定相应的本地字符编码设置,并依此处理本地字符。在处理过程中需要实现 Unicode 和本地字符集的相互转换,甚或以 Unicode 为中间的两个不同本地字符集的相互转换。这种方式在网络环境下被进一步延伸,任何网络两端的字符信息也需要根据字符集的设置转换成可接受的内容。
Nov 24
点击在新窗口中浏览此图片
今天在收拾衣服的时候,发现我这几年买的衣服里很多都是有帽的.
而且我还会在我烦的时候,把帽子扣上.这样我会觉得世界都宁静.
虽然有人会说我很怪?为什么会帽子扣上,又不是很冷.
Nov 21

现代汉语语料库加工规范
——词语切分与词性标注



⒈ 前言

北大计算语言学研究所从1992 年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
Nov 21
                                郭  锐

         On the notation of parts of speech in Chinese dictionary
                                Guo Rui

零  引言

    本文讨论词典标注词性的必要性、标注词性的可能性和困难、现代汉语的内部分层和词性标注、词性标注应注意的问题四方面问题。

    本文所依据的汉语词类体系是朱德熙、陆俭明、郭锐承担的国家七五社科项目“现代汉语词类研究”的体系。简介如下:
Nov 21

Ag
形语素
形容词性语素。形容词代码为a,语素代码g前面置以A。

a
形容词
取英语形容词adjective的第1个字母。

ad
副形词
直接作状语的形容词。形容词代码a和副词代码d并在一起。
分页: 1/3 第一页 1 2 3 下页 最后页 [ 显示模式: 摘要 | 列表 ]