6.《通用规范汉字表》三级字表设立的原因及其性质
《通用规范汉字表》三级字表的设立,主要是为了满足专门领域的用字在通用层面上的需要。由于信息化带来的用字量扩大,《通用规范汉字表》如果只局限在基本通用字的范围,虽然可以满足日常生活用字的需要,却无法解决计算机存储和专门领域的用字问题。因此,有必要补充一些与大众生活密切相关的专门领域用字。《通用规范汉字表》在基本通用字之外,增设三级字表,适当增加姓氏人名用字、地名用字、科技术语用字以及中小学教材文言文用字,以便有效地解决这四个领域中信息处理的缺字问题。
虽然三级字不能在平衡语料库里依照字频和覆盖率收集到,但仍旧属于通用层面上的用字。这个问题需要从两个方面解释:
第一,需要全面理解“通用”这个概念。“通用”包括两个层面:一个是印刷的层面,一个是阅读的层面。能够进入平衡语料库的汉字,兼有这两个方面的通行度。但是也有一些汉字,印刷的频度并不高,阅读的频度却很高。例如医药名称、饮食营养学中的专业用字,虽然仅仅专业领域用来打印,但阅读人群却可以达到千家万户。再如,基础教育语文教材的文言用字,也有少部分不属于社会通用字,但是每年的教材印刷必须使用,历届教师、学生、家长必须面对,阅读人群几乎也达到千家万户。这些字也是需要统一字形而进入规范的。
第二,在信息时代,“通用”的概念发生了实质性的变化。除了人的使用外,还必须考虑到计算机的存储与使用。在汉字主要是手写的时代,这些特定领域的用字即使不定标准也不会有太大的问题,而在计算机和互联网时代,那些在一般语料库里凭借字频难以找到的字,在人民的日常生活中却不失其通用性。以汉字为载体的信息,一部分是在流通领域通行的,还有一部分是储备领域必需的。例如姓名,除了知名人士,一般的姓名在社会通用层面上使用度不会太高;地名,除了大城市、著名景点,一般的地名在社会通用层面上使用度也比较有限,根据字频和使用度不能将它们收集到。但是,无所不往的邮政、金融、交通等事业,无人不用的身份证、学历证书、医疗保险、产权证明等证件,必须储备可能用到的汉字。如果在信息处理上不对这些字进行规范,也会引起社会信息储备和使用的混乱。完全依据使用频率和语料覆盖率来确定字表的收字,这些特定领域的用字就难以收集到,所以要从专门领域提供的专用字中收集。专业领域通用字是对一般社会通用字的必不可少的补充。
7.《通用规范汉字表》三级字表的收字原则、范围以及具体来源
在确定《通用规范汉字表》三级字表的收字时,坚持以下三条原则:(1)从汉字应用的具体事实出发,必须字字有来历,或有文献出处,或由相关职能部门提供用例和出处;(2)必须音义俱全,人名用字应适合于起名;(3)必须保证其通用的性质,不收用处不大的生僻字。收字范围具体包括:姓氏人名用字、地名用字、科技术语用字、中小学教材文言文用字。
(1)姓氏人名用字。中国是一个多民族的国家,姓氏不但稽留着民族和血缘的传承关系,还成为每个公民的称谓符号,其用字不能随便更改。字表对当用的姓氏用字要尽可能收集齐全,以保证信息传播的信度。至于名字所用的汉字,现在已经相当混乱,有些名字的用字甚至在已经扩充到7万余字的计算机国际编码字符集中都难以找到,致使第二代身份证由于字库用字不全而无法制作,给一些人的生活带来极大不便。《通用规范汉字表》无法改变已有人名用字的混乱状况和使用上的麻烦,但可以对今后的命名(主要是新生儿起名)和更名提供一些便于使用的字,可以引导人们减少使用生僻字、避免使用错讹字起名。这就需要尽量将姓氏用字收全,并在已有的人名用字中选择足够的、适合于起名的汉字进行规范,以保证个人姓名有效地在社会上流通。
(2)地名用字。地名用字往往不是在全国范围内普遍通行,但对当地居民来说却属于常用字,在省级区划范围内,乡以上地名用字是不可缺少的。由于方言的关系,经常会产生各种各样的“方言字”或自造字,造成用字的混乱。当今,户籍、邮政、金融等行业的信息贮存和检索已经全面数字化,地球卫星定位系统广泛应用,地名用字的混乱,会给有关行业带来信息阻塞的后果,这是不言自明的。
(3)科技术语用字。由于科学技术的发展、教育水平的提高和科学知识的普及,很多科学技术的用语快速进入人民的日常生活。仅仅拿记录化学元素的汉字来说,它们很多要用在药品名上,当药方不再手写而用计算机输录时,这些字就成为医生、药师、病人、家属交流的载体。农药、化肥、室内装修材料也有不少是要用它们的学名来宣传、普及的。至于化妆品、清洁剂的使用,饮食健康的讲解,气象的采集和预报等,一旦进入科学普及领域,都会受到普遍关注。特别是各专业的教科书的编写和印刷,更会用到这些字。
(4)中小学教材文言文用字。规范汉字主要是书写现代汉语文本的,但是,传统、历史与现代不是绝缘的,现代文本中会引用文言作品,中小学语文教材中也都会收一部分优秀的文言作品。前者可以在一般的平衡语料库中收集到,而为了保证教材印刷的规范,需要在语文教材中专门收集文言文的用字。
这四个方面,既是信息时代用字的重要领域,又是信息传播容易缺字的领域。具体收字数量如下:
姓氏人名用字930字,主要来源于1982年18省市抽样人口普查资料和公安部提供的姓氏用字及部分人名用字,并适当补收一些古代姓氏用字和有影响的古代人名用字。
地名用字465字,主要来源于民政部提供的乡镇以上地名用字、国家测绘局提供的部分村级地名和部分自然实体名称的用字、常用汉语工具书中标明为“地名”的用字。
科技术语用字276字,主要来源于全国科学技术名词审定委员会提供的中医药学、植物学、遗传学、冶金学、微生物学、土壤学等56个门类的术语用字,以及中国社会科学院语言研究所提供的天文、气象、地理、动物、植物、工业、农业、政治、经济、文化、历史等33个门类的科学技术与人文社会科学的术语用字。
中小学教材的文言文用字362字,主要从字表研制工作组建立的“中小学语文教材文言文语料库”(收1949-2007年中小学语文及普及文言文语料,560万汉字)中提取。
以上四个方面的用字合并去重后,去除已经进入一、二级字表的字,再去除疑难字、错讹字和异体字等,共为1800字。由于三级字是四个方面的用字合并去重后得出的,所以,三级字的属性并不都是单一的,有些字可能兼有多个领域的不同属性。
|