(四)实施步骤及工作进度
1、2006年工作内容
(1)信息资源加工工作规范的建立
主要包括:基本数据格式标准的制定,数据加工标准的制定,专题数据库加工和建设标准的制定,标引规则和标引流程的制定,数据加工质量要求和质量控制体系的确立。
(2)数据初加工
a) 内部数据规范化:按照国际和国内相关数据标准对我局内部数据进行加工和规范整合,完成中国专利数据的规范和统一存储、管理等工作。
b) 外部数据的收集和整合:完成世界主要工业国家的专利数据收集,并按照我局整体数据规划和数据标准进行规范和整合。
c) 启动回溯申请文档的电子化和全文代码化工作和回溯数据的补齐工作。
(3)数据深加工
a) 启动我局主导的数据深加工,主要包括:按照IPC8对中国专利数据进行分类,重新撰写文摘,进行文摘翻译,并在2年内完成对追溯数据的加工。逐步建立中国专利文摘库(PAC)。对新申请中国专利的文摘数据处理,建议采用JPO的方式,从新申请受理后即开始进行文摘重新撰写,加工流程如下图所示:
文摘重新撰写,是对申请人撰写的文摘进行二次加工,将不规范的文摘按照要求改写成由技术要点、主要用途和有益效果组成的结构化文摘。经过重新撰写的、规范化、结构化的文摘有利于使用计算机进行辅助翻译。我局可以通过制订标准的方式,要求申请人提供符合我局要求的结构化标准格式的文摘。根据JPO的经验,申请人提供的文摘中,发现问题的文摘大约48%,需要重新改写的约为35%。
文摘翻译,对文摘的翻译可以聘用外部人员进行人工翻译,计算机辅助翻译将极大的提高翻译工作的效率,不断降低翻译的成本。根据日本专利局的统计数据,处理每年42万件专利申请文摘的翻译,需聘用500-800名兼职翻译人员。用于校对和管理的内部专职人员大约100人(其中一部分负责商标的处理)。
校对,经过重新撰写和翻译的文摘需要由我局工作人员进行校对,并进行质量检查,以确保数据的质量。
入库和公开,经过校对的数据进入中国专利文摘库(PAC),以便进行审批和公开。
b) 启动专题数据库试验库的建设,主要是对特殊专利领域的数据进行深度标引,建立多个领域的专题数据库试验库。
(4)数据池的建设
a) 管理系统开发,建立专利数据管理系统,对我局现有专利数据资源进行集中存储和管理。
b) 将馆藏光盘数据入库管理,将现有馆藏光盘入库,变手工管理为计算机辅助管理,建立相应的光盘信息库,降低专利文献馆藏光盘管理工作强度。
c) 扫描纸件、缩微平片文献入库,将现有的纸件、缩微平片文献扫描为电子件入库管理(可根据实际需求确定是否实施)。
d) 将基于数据库的数据装入系统,将现有数据库的数据提取形成原始数据入库管理。
2、2007年—2009年工作内容
(1)数据初加工
实时加工同步数据,同时对回溯数据进行加工。
(2)数据深加工
实时加工同步数据,同时对回溯数据进行加工。
(3)专题数据库建设
逐步完成专题数据库的建设工作,重点建设化工领域专利数据库、半导体材料数据库、通讯技术专利数据库、生物工程专利数据库、机械图形数据库等。建设专题专利数据库,主要加工内容包括数据的筛选、专业化分类和标引。制定科学严谨的标引规则和严格的质量控制体系,是专题数据库建设成功的基本保障。
(4)完成回溯申请数据电子化补齐工作
完成全部回溯申请数据电子化的补齐工作,2007年底之前完成所有回溯数据的补齐工作,2008年底之前完成所有回溯图形数据的代码化转换。
3、2010年工作内容
到“十一五”结束,基本完成数据加工的体系建设和回溯数据的加工工作,完善数据加工机制和质量控制体系,初步培育出数据加工市场,完成上述数据加工工作和相关数据库建设,进一步完善数据加工工作流程。到2010年,继续按照规范的数据加工工作规程实时加工同步数据,不断完善已建成的各种数据资源,进行更深层次的信息资源资源利用研究。
工作内容及进度见下表:
年度
内容
|
2006
|
2007
|
2008
|
2009
|
2010
|
1季度
|
2季度
|
3季度
|
4季度
|
1季度
|
2季度
|
3季度
|
4季度
|
|
|
|
标准制订
|
数据标准、
词表、知识库、
标引规则等
|
数据标准、词表、知识库、标引规则等的日常维护
|
培训
|
|
加工队伍的建立和培训
|
|
|
|
|
|
|
|
试验深标引
|
|
|
|
|
|
|
|
|
|
|
正式深标引
|
|
|
|
分解项目、平行标引、整体集成、回溯与同步双向进行,
2007年底完成回溯数据IPC8分类、文摘重写和翻译
|
外部特征提取和标引
|
|
|
回溯数据处理
|
同步标引和维护
|
标引流程设计
|
|
|
|
|
|
|
|
|
|
|
标引流程管理系统开发
|
|
|
|
|
|
|
|
|
数据规范和整合
|
|
|
|
|
|
|
申请文档电子化/代码化
|
2007年底完成回溯数据的电子化,2008年底完成回溯数据的代码化
|
同步加工
|
建立数据资源存储系统
|
实现数据资源统一存放、集中管理
|
|
|
|
|
|
|
|
XML全文标准化
|
|
同步加工
|
机器翻译
|
机器辅助翻译
|
机器翻译为主
|
全自动机器翻译+人工辅助
|
备注
|
1、 标准制订,包括:数据标准、标引规则、主题词表、职能符表、分类系统、公司代码系统等各种用于规范数据加工的标准和工具的建立以及各种知识库的建立。
2、 标准制订过程是伴随实验性数据加工同时进行的,培训和后续的试标引将对制订的数据加工标准进行实践检验和进一步完善,其工作成果为小型实验数据库的建立。
3、 为保障进度,可采取分项平行的方式,同时进行多项标准的制订、培训和实施,实施工业流水线方式的加工流程和管理控制模式。例如,撰写文摘作为一项加工内容制订单独的标准,专门招聘文摘撰写员,单独培训,这样化整为零,可以提高培训速度、利于质量控制、提高工作效率,保障工作进度。
|
(五)保障条件
要保障“十一五”期间高效、优质的完成信息资源加工任务,必须全方位的保障条件,包括:1、组织保障;2、政策保障;3、标准保障;4、经费保障;5、基本数据保障;6、人员保障。
(六)实施方式
1、建立我局信息资源加工核心技术团队。该团队应该由我局各相关机构业务骨干共同组成,聘请部分社会上的专家作为技术顾问,共同研究制订我局的信息资源加工标准、工作流程、质量控制标准,建立计算机辅助的半自动标引体系、机器翻译系统、词表等各种辅助工具,为后续培训和组织实施进行技术准备和人才贮备。
2、对我局现有信息资源加工队伍进行整合并扩充,通过严格培训形成我局信息资源加工的基础队伍。
3、采用工业化装配作业方式,对信息资源加工任务进行分解,分项培训和实施,最后进行数据集成。分解作业可以提高工作效率,易于进行质量控制。
4、IPC分类工作由我局主导,自行组织完成。文摘撰写、范畴分类、主题标引可考虑选择我局主导、信息资源加工机构配合、适当引进社会力量参与等多种形式完成。专业信息的深度加工,也可考虑采用多种力量联合实施的方式完成。
5、信息资源加工的组织、实施,标准的研究、维护和修改完善等工作,必须有专门的机构进行负责,建议以整合后的信息资源加工队伍为基础,引进部分社会资金,联合成立商业化数据加工机构,以合同形式执行数据加工任务。“十一五”结束后,我局可停止对除IPC分类以外的其他数据深加工的经费投入,转而将形成的数据深加工产品的销售权授权该机构,我局作为数据库用户购买该机构的产品。这样,可以以该机构为基础,带动我国专利信息深加工产业的发展,以此为基础打造中国的德温特。
三、对中国专利信息资源的加工范围及内容
对中国专利信息资源的加工,包括初加工和深加工。
(一)初加工
包括纸件文档的电子化;图形文件OCR代码化;同族专利信息处理;专利引文、法律状态、公司代码等数据库的建立。具体工作如下:
1、纸件文档电子化和代码化
纸件文档电子化和代码化是专利审批流程无纸化的基础,目前我局已经将所有专利申请公开文档和公告文档电子化和代码化,此项工作在“十一五”期间将得到延续,按每年30万件增量,“十一五”期间将完成150万件公开文档的电子化和代码化。
此外,“十一五”期间将对所有申请文档进行电子化和代码化(包括回溯文档和新增文档),为我局专利审批无纸化作好数据准备,目前,未经加工的专利申请文档回溯数据量为260万件,按每年40万件递增,“十一五”末总数据处理量将达到560万件。
在“十一五”期间,随着电子申请系统和无纸化系统的进一步优化,电子文档的比例将逐渐上升,这将降低电子化和代码化数据处理的数量。
2、同族专利信息处理
目前,在中国专利申请中有相当比例的专利文献具有优先权信息,可根据优先权信息对专利进行同族聚类,建立世界范围的同族专利数据库(该库只是一个同族专利信息对照表,通过专利号与原始专利文献进行链接)。
3、专利引文标引
对专利文献中,专利审查员给出的引证文献和发明人给出的引证文献分别进行标引,建立世界范围的专利引文数据库。
4、法律状态
目前法律状态数据库已经初步建设完成,具有相对完整的数据,“十一五”期间需要进一步对数据进行整理和逻辑整合,并对新增数据进行加工维护。
5、机构代码系统的建立和标引
在专利文献中,机构名称的不一致性非常普遍,特别是国外公司名称翻译的混乱,给用户检索特定机构的专利造成很大困难,该问题早就引起世界各国的广泛注意。目前,世界先进专利数据库系统普遍采用机构代码的方式解决该问题,例如,英国德温特世界专利索引数据库(WPI)采用由4位英文字母组成的机构代码,美国IFI公司建立的深度标引的美国专利CLAIMS系列数据库和欧洲专利局建立的数据库,均采用由6位数字组成的机构代码,日本专利数据库也采用数字表示的机构代码。
在建立中国专利数据库机构代码系统的过程中,可以通过对世界主要专利数据库的机构代码进行深入研究的基础上,结合我国政府制定的国家组织机构代码系统,制定符合我国用户需求的 机构代码体系。
6、信息资源的规范整合
对现有中国专利数据根据我局制订的数据标准进行规范并整合形成标准化的、高质量的、面向检索、易于应用的数据,建立数据池,将中国专利数据整合为一个统一的数据资源层,为上层检索和应用层提供数据支持。
(二)深加工
数据深加工包括:主题标引;IPC分类;范畴分类、文摘重新撰写、文摘翻译、基因序列标引和注释、确定化学结构标引和注释、族性化学结构标引和注释、机械图形标引、电子电路图形标引等,具体加工内容可根据我局专利审查的需要进行调整。
1、主题标引
结合特定领域需要,对特定技术主题的专利文献进行深入的主题标引,标引深度依据各领域的专业需求分别制定。对于一般领域的专利文献,可以进行简单的主题标引,但是,对于检索特别困难、对国民经济发展特别重要的技术领域,例如、制药、生物技术、农药、集成电路、材料科学等技术领域,可在深入技术分类的基础上,进行深层次的主题标引。
主题标引工作是一项艰巨和严肃的工作,必须制定严格统一的标引规则、统一的主题词表、严格的质量控制标准,标引人员必须具备本领域技术背景,并经过严格的标引培训,只有这样才能保障标引的准确性和一致性。
由于标引和检索是互逆的过程,因此,建立科学、先进的开放式主题词表系统对规范标引和检索都具有十分重要的意义(关于词表建设见“加工标准”)。
2、专业分类
专业分类包括IPC8分类和范畴分类。
IPC8分类是国际专利分类标准,我局已向WIPO承诺从2006年开始对中国专利文献进行IPC8分类,由于我局有专门的部门承担对专利文献的IPC分类,因此,利用IPC8对新公开的中国专利文献可以由我局专门的分类机构负责,对回溯文献的重新分类可以纳入我局数据加工的范畴。
由于IPC是以功能为主的混合分类系统,不利于普通公众从应用角度检索,有必要建立适合公众检索的专利文献分类系统。我局信息中心使用的范畴分类是在德温特分类法的基础上建立的以应用为基础的分类系统,但该系统分类层级有限,疏于维护和管理,20余年未做更新,已不适应新技术的发展。因此,有必要对该分类系统进行改造、优化和更新,使其适合现代技术分类,并适合我局专题数据库的分类。
在建立我局自主的分类系统时,有必要对目前国际上流行的分类系统进行深入分析,取众家所长。目前,国际上比较流行的专利分类系统主要有三类:
(1)面向功能的分类系统:主要有美国专利分类系统。
(2)面向应用的分类系统:英国德温特分类系统、日本F-TERM分类系统。
(3)混合分类系统:IPC国际分类系统、欧洲ECLA分类系统。
在建立中国专利范畴分类系统时,可以在对上述分类系统进行深入研究的基础上,借鉴各分类系统的优点,结合国内用户的特殊需求,开发面向用户需求的、具有自主知识产权的专利分类系统。
分类方法采用逐级深入的方式,组织不同专业领域的数据加工人员完成对全部专利文献准确深入的专业化分类。
3、文摘(篇名)重新撰写
对文摘进行重新撰写,可以满足三个方面的目的:(1)增加文摘中的技术信息含量,改善中国专利文摘数据库的检索效率;(2)对文摘结构和语句结构进行标准规范,为机器翻译提供高质量的数据基础;(3)提高中国专利文摘数据库的质量,使中国专利文献尽早成为PCT最低文献量。
为了保障文摘撰写的质量,必须制定严格的撰写规则,制定具体规则时可以参照德温特WPI的规则,将文摘结构分为:技术要点、用途、有益效果等几部分。
4、机器翻译
完成中国专利文摘数据库的机器翻译。对中国专利进行英文翻译可以提供外国人检索和浏览中国专利,有利于中国专利文献尽早成为PCT最低文献量。翻译工作需要建立各专业领域的主题词翻译词库,专业词库可以有效帮助用户进行本领域专利文献的检索、快速翻译和浏览。
“十一五”期间,除了完成对中国专利文献(包括发明、实用新型和外观设计)的题目和文摘进行自动机器翻译外,还应实现英文专利向汉语翻译,为公众提供检索和利用国外专利文献的有效工具。
5、特殊专业信息的深度标引
在许多高技术领域和特殊专业领域,很难利用常规手段进行专业信息的有效检索,而这些领域又往往对国家的科技进步和经济发展具有特别重要的影响,例如,制药、生物技术、材料、农药等。为了实现特殊专业信息的有效检索,有必要根据这些特定领域的需求,在学习、吸收和借鉴国外先进经验的基础上,进行特定专业领域的专业信息标引,例如,确定化学结构标引、族性化学结构标引、基因序列标引等。国家知识产权局分别于2001年和2002年开始开发建立中国中药专利数据库和中国化学药专利数据库,在专业信息标引和检索方面树立了成功的典范,实现了多种专业信息的深度标引和检索功能,例如,药物范畴分类标引、药物主题的深入标引、中药方剂的相似性检索、确定化学结构的有效检索等。“十一五”期间应当进一步加强和完善此项工作。
目前,欧洲专利局对机械图形的深度标引建立了自己的代码体系,我局可在该领域开展与欧洲专利局的交流与合作,在学习和引进先进经验的基础上建立适合我局应用的机械图形标引规则。
四、对国外专利文献的加工范围及内容
对于国外专利信息资源的加工包括全面初加工和有限范围的深加工。
(一)初加工
主要对国外购进和交换的专利文献,按照我局的数据标准进行转换、规范和整合。另外,还包括对专利文献外部特征的提取和整理,例如,同族专利信息整理、专利引文信息的提取和标引、法律状态信息的整理等。
1、文摘数据的规范和整合
对我局购买和交换的各类文摘数据进行评估、去重。针对各国数据格式不同的问题,可以采用以下处理方式:
对所有数据库共有字段进行规范统一,对个别国家的特殊字段予以保留,例如,日本的F-TERM字段、欧洲的ECLA分类字段、美国的USCLA分类字段等。
2、专利全文图形的格式规范和转换
目前,在我局收藏的各国图形格式专利文献全文中,PDF和TIFF是最普遍的,这两种格式也是目前国际上普遍使用的格式,为了减少工作量,提高数据加工的效率,建议我局的专利全文图形文档的数据格式保留上述两种通用格式,其他格式可以考虑进行数据格式转换。
3、代码化全文数据的格式规范
我局的电子数据标准即将出台,该标准是根据WIPO ST.36制订的,建议我局所有的代码化全文数据依照该标准执行。
由于WIPO在大力推行统一的数据标准,估计今后所购买的国外代码化全文的标准化程度比较高,用于数据规范的工作量不会很大。
4、同族专利信息处理
目前,世界上的专利文献总量已超过5000万件,但其中只有三分之一是新发明,其余三分之二均为重复专利,主要是同族专利,因此,对专利文献进行同族专利登录,不仅可以大大减少专利文献的加工数量,而且,可以实现同族专利检索功能。同族专利信息检索对评价专利技术的经济价值、调研专利技术的保护范围、避免技术和产品进出口贸易中的专利侵权具有特别重要的意义。
5、专利引文标引
目前,提供专利引文的国家越来越多,我局可以采用交换的方式获得其他国家的专利引文,然后再自行进行数据规范和加工,另外,在条件许可的情况下,可增加对申请人专利引文的标引。
目前,就连享有国际声誉的英国德温特公司也遇到有些国家不愿意提供专利引文,所以其生产的专利引文数据库中收录的国家有所减少。如果我局能实现与其他局的数据交换,我们在数据获取上将占有更有利的地位。
(二)深加工
是否对国外专利文献进行深加工?加工的范围和程度如何?这完全取决于我局的经费情况。
从战略的角度讲,信息对一个国家的科技进步和经济发展越来越重要,目前,我国各领域,特别是自主创新程度较高的领域,对国外信息的需求量越来越高,然而,我国的高端信息产品与服务基本被国外企业所垄断,这种状况在一定程度上制约了我国信息加工产业和信息服务业的发展。从长远看,虽然我国目前在数据加工上落后于发达国家,但该领域具有巨大发展潜力和空间。我国拥有丰富的廉价高智力劳动力,原始信息资源获取便利,经过多年的摸索和实践,我们基本上掌握了国际上先进的数据加工技术,与国外发达国家比,我们在数据加工上具有更多的优势,如果我们现在不开始准备,恐怕会错过发展我国信息加工产业的良好机遇。因此,建议在经费允许的情况下,加大对国外信息的深度加工,为我国科研决策、知识创新提供信息保障。
如果考虑对国外数据进行深度加工,可以考虑先从对生命科学领域的专利入手,因为该部分专利对我国的重要科技领域影响重大,这部分信息特别难检索,利用国外数据库进行检索费用特别昂贵。例如,利用美国化学文摘数据库检索一个族性化学结构需要200美圆。
根据对德温特基因序列数据库、美国化学文摘数据库的调查显示,截止2005年8月。国外1988年至今的基因序列专利大约有60万件,涉及族性化学结构的专利有20万件,自1980年以来,涉及化学物质的专利大约370万件。
五、数据库建设结构布局
“十一五”期间,我局通过信息资源加工,将建立一系列专利数据库,并根据需要购买部分国外商品数据库,作为我局专利审查检索和对公众服务的数据基础。现将我局“十一五”期间建设的数据库结构及布局图示如下:
国家知识产权局信息资源系统(SIPO-IRS)结构布局
其中,中国专利基础数据库群包括:中国专利说明书全文图形数据库、代码化全文数据库、中国专利文摘数据库、中国专利英文文摘数据库和一系列针对特定技术领域检索需求的专题专利数据库。
国外专利数据库群包括:国外专利说明书全文图形数据库;国外代码化专利说明书全文数据库;国外专利文摘数据库,主要对我局购买和交换的国外专利文摘数据库进行整合形成;WPI数据库及器其他可能引进的国外专利数据库。
辅助数据库群主要是指除专利基础数据库群以外用于辅助检索专利基础信息的其他专利原始信息和加工信息的数据库群,包括:各种经过专业化标引形成的特殊专业信息数据库(如:基因序列、化学结构、中药方剂等)、辅助检索的工具数据库,如主题词索引库、IPC分类、中药词典、化学物质登记数据库等;涉及法律事物和专利特殊信息的各种数据库,如法律状态数据库、复审决定数据库、同族专利数据库、公司代码数据库、专利引文数据库等。
六、数据加工标准的建立
在数据加工中,标准不仅关系到数据加工的质量,而且会直接影响检索系统的设计和开发,对未来数据库的检索效率造成直接的影响。因此,一定要本着科学的态度,审慎制订、严格执行。所有标准的制定应在我局信息办的统筹下,由各相关数据加工单位协同相关业务部门进行制定,专家委员会讨论通过后实施。
下面是对我局数据加工标准的几点初步建议。
1、图形数据
考虑到目前TIFF和PDF格式为国际上比较通用的图形文件格式,因此,建议我局的所有图形电子文档数据保留TIFF与PDF两种格式,其他格式可以转为TIFF格式。这样,不仅可以节省大量文件格式转换的工作量,而且,保留两种主流格式,不会给今后的文件浏览和调阅造成任何不便,目前,欧洲专利局也主要保留该两种文件格式。
2、代码化文摘数据和全文数据
由局内外负责专利数据和进行专利数据研究的部门共同工作,制定出符合国际标准的电子数据标准。对代码化文摘数据和全文数据的规范,数据标准可根据WIPO的相关标准制定我局的电子数据标准,对数据结构、数据元素、字段命名等进行统一规范。
3、专利文献分类
以IPC8为标准,对全部中国专利文献进行重新分类标引。
同时,对我局的专利范畴分类进行优化改造,建立面向应用的分类体系。一方面,面向应用的分类体系,可用于建立虚拟的专题库,另一方面,可以满足用户从应用角度检索专利文献的需求。
4、主题标引
为规范主题标引,必须建立严格的标引规则。由于各领域技术差异较大,可以考虑在制订普遍适用的总原则下,各专业再根据各领域专业特色进一步细划标引规则。这样,辅以范畴分类,就可以形成系列虚拟的专题数据库。
5、开放性主题词表的建立
主题词表是实施对标引和检索进行双向规范的工具,由于新技术的不断涌现,为了及时在标引结果中反映新技术,建立开放性规范化词表是必要的,也即在标引时优先使用规范词,当没有规范词时使用关键词,当关键词使用的频率达到一定量时,再将之纳入规范词的范畴。
制订严格的词表管理体系,在标引过程中,由标引人员对同义词进行补充,不断丰富词库,也可以利用用户检索策略中的关键词对同义词库进行补充,最终形成我局独具特色的主题词表系统,该词库今后可作为主题检索的有效工具。
6、文摘撰写和翻译规则
为了使中国专利文献尽早成为PCT最低文献量,有必要进一步提高中国专利文摘及其翻译的质量,为了保障文摘撰写和翻译的质量,必须制定严格的撰写和翻译规则,制定具体规则时可以参照德温特WPI的规则或其他国际一流数据库的文摘规则。
制订文摘撰写规则时,应考虑以下因素:1、提供尽可能多的技术信息,例如,德温特专利文摘中分结构给出技术要点、先进性、用途等多项信息;2、尽量使用易于机器翻译的标准语句结构,为机器翻译奠定基础。
7、机构代码
建立适于检索的机构代码系统,可以参考德温特机构代码和美国、日本和欧洲专利局的代码体系,提高中国专利数据库对特定机构专利的检索效率,特别是名称翻译极其混乱的国外公司。
8、专业信息标引
根据我局各领域专利审查的需求,建立专业信息标引规则,目前,我局对基因序列、确定化学结构和族性化学结构都在前期的药物数据库项目和863科研项目中予以解决,因此,对上述专业信息的标引可以尽快开始。对于其他专业信息的标引,例如,机械图形、电子线路图等,则需要认真研究后制订。
9、标准数据交换格式及数据备份
标准数据交换格式对大型数据资源的管理极其重要。其重要性表现在如下几个方面:(1)为存储于数据库系统的超大规模数据保存一个终极后备,即,如果运行中的数据库系统因不可抗拒的原因毁坏,该数据交换格式可以提供可靠的恢复机理;(2)与国际专利文献机构进行数据交换,标准数据交换格式提供了标准的平台,降低文献数据交换过程的代价,减少出错几率、提高质量控制能力。
根据目前国际上W3C协议规范的发展态势,建议采行XML作为我国专利文献资源管理的标准数据交换格式,并作为我国专利文献资源管理数据库群的入口和安全后备系统的统一数据描述格式。进入数据库系统的全部数据都要有基于文件系统的永久性存储介质以XML格式备份。并且要有异地保存的备份以保证战略数据资源的绝对安全。
10、标准维护体系的建立
各种标准、规则、知识库的生命力在于不断维护和更新,因此,在数据库加工中一定要建立标准维护和更新机制,对各类标准随时根据技术发展实际情况进行调整和更新。要对国外同类技术领域的发展进行研究和跟踪,跟上国际新技术发展潮流,保持标准的先进性、实用性和科学性。
七、运行机制
数据加工是信息资源建设的基础工作,必须科学规划、合理投入、有序组织。在数据加工方案的设计上,我局不仅要考虑满足自身专利审查的需求,还要考虑满足社会公众的基本检索需求。我局信息化建设的目的,不仅仅是我局信息化水平的提升,还要考虑提升整个国家的信息化水平,我局信息化的大量投入,应带来降低全社会信息投入的效应。另外,由于我国是一个信息化程度较低的发展中国家,数据加工处于萌芽状态,因此,我局在信息加工的过程中,应注重培育健康的数据加工市场,使我国的信息加工产业随着我局的信息资源建设而得以建立和成长。只有培育了健康的数据加工产业,我局的信息资源建设才会成为有水之源,才会避免国家无尽的大力投入,才会为整个国家的信息资源建设作出最实质性的贡献。
但是我们也必须认识到,数据深加工是一项专业化强、复杂度高、投入较大的系统工程,因此,在建设方案的选择上不仅要考虑数据深加工的近期效果,还要考虑数据深加工今后的良性发展问题。国家的前期投入是必需的,但我们不能让国家无尽的投入。因此建议对数据深加工进行分类,对于不同的数据深加工项目采用不同的投入措施和运行机制。
1、政府主导基础性工作
目前我国信息加工产业尚未形成,国内市场经济发展并不强壮,应当在我局的主导下进行数据加工的基础性工作,为培育数据加工市场并逐步将数据加工推向市场做好前期的铺垫和准备工作。这部分工作包括数据初加工、IPC分类、主题标引等。
2、 政府搭台、企业唱戏,培育我国商业化信息加工和服务产业
在我局前期主导的数据加工基础上,逐渐培育数据加工市场,将部分数据加工工作推向市场化运作,例如,某些数据深加工工作、专题专利数据库建设,如中西药专利数据库,化学结构数据库、基因序列数据库等。
3、引入市场公平竞争机制,加强政府监控职能
我局可以通过政策的扶持,建立由市场主导的数据加工机制。我局可以通过与社会数据加工机构合作的方式,各自提供信息资源和技术人力资源,共同开发信息资源产品。提高我局数据质量和对外信息服务质量。
八、管理体系和质量控制体系的建立
信息资源加工的重点应侧重在数据标准的制定、标引规则的制定和质量控制体系的制定。
信息资源加工是一项复杂的系统工程,需要统筹规划和科学管理,因此,在“十一五”期间,应当尽快建立健全信息资源加工的管理体系和质量控制体系,使信息资源加工工作成为一项科学化、规范化、制度化的工作。制定信息资源加工和标引规程,建立科学的信息资源加工管理流程,对信息资源加工工作进行严格的质量控制。
九、组织实施
信息资源加工工作的规模庞大,复杂度高,需要精心的组织实施。建议将工业生产流水线的生产方式引入信息资源加工工作,将专利文献作为原材料,分解为多个数据零件进行加工,最后组装成为完整的数据产品。
1、建立核心技术团队
建立我局信息资源加工核心技术团队,以300人左右为佳,这个核心技术团队应当由目前我局各个部门对信息资源加工工作比较熟悉的人员共同组成并辅以熟悉信息资源加工的外部组织,主要负责对信息资源加工进行组织、标准制订、培训、技术监督、质量控制、实施管理等。具体的信息资源加工工作可采用项目分包的方式,利用审查员和外部力量辅助完成我局海量信息资源的加工。
2、以加工标准和工作流程为指导,以先进的IT技术为支撑
随着信息资源规模越来越庞大,信息资源来源越来越复杂,简单的人工方式已经越来越难以适应当前的信息资源加工工作现状。为了更好的进行信息资源加工工作,必须尽快完善现有的标引规则并制定新的信息资源加工标准,制定科学的信息资源加工工作流程,同时加快信息资源加工方面的信息系统建设,用先进的IT技术不断提高信息资源加工工作的效率。
3、建立完善的培训机制
信息资源加工工作是一项专业性很强的工作,由于数据量的日益增长,以及信息资源加工标准的不断更新,对从业人员的要求也越来越高。随着专利申请量的日益增长,以及我局数据来源的日益扩大,专利文献的整体数量也会不断增加。信息资源加工机构会不断招收新的从业人员,对这些从业人员的培训,对于新人能否迅速投入生产,以及加工的数据质量如何,起着至关重要的作用。因此,需要建立一套完善的培训机制,不断提高现有从业人员的素质,缩短新从业人员投入生产的周期,提高信息资源加工工作的质量和效率。
4、建立分布式加工网络
目前我国信息资源加工市场还没有形成,信息资源加工机构,特别是进行专利文献信息资源加工的机构屈指可数。要提高专利信息资源的加工利用程度和加工质量,就必须逐步培育信息资源加工市场,为信息资源加工引入竞争机制。通过我局前期主导,并逐步将信息资源加工工作推向市场,逐渐建立起一个信息资源加工网络。信息资源加工市场的成熟化、网络化、现代化,有利于增加我局在选择信息资源加工机构时的灵活性,有利于不断提高我局信息资源质量。
5、制订科学合理的工作流程
为了提高信息资源加工和标引的工作效率和保障质量,可以对标引工作进行任务分解,针对特定的单一任务进行人员培训,例如,针对撰写文摘,可以专门组织人员进行撰写文摘的培训,或组织专门的队伍进行化学结构的标引,由于掌握单一标引方法相对容易,所以可以缩短对标引人员的培训周期,尽快进入正式工作流程。这样,可以对所有标引内容同时开始培训,由不同的团队完成不同的加工任务,最后再对加工后的数据进行集成。
6、分解控制,保障质量
信息资源加工工作逐步细化和分解后,有利于提高单项信息资源加工工作的专业化程度,同时也有利于提高信息资源加工流程控制和质量控制的灵活度。可以根据工作分解,分别制定相关的加工标引标准和质量控制标准,先制定完成的信息资源加工标准先进行培训并开始相关的信息资源加工工作。同时,质量控制也随着工作的细化而变得相对简单,由针对整篇文献的质量检查变为针对某个具体的部分进行检查,质量控制人员也逐步专业化。
7、信息资源集成
经过工作分解后分别加工出来的信息资源加工产品是一个个单独的数据零件,必须对这些数据零件进行集中组装才能形成完整的数据记录,数据的集成完全由系统自动完成,也可以动态生产完整数据单元,供数据交换和检索利用。
十、结论
信息资源加工是一项复杂的系统工程,需要科学规划、审慎实施。我们已经有了建设中西药专利数据库的经验;圆满完成了国家863项目,实现了确定化学结构、族性化学结构和基因序列等复杂专业信息的标引和检索。在局领导的大力支持下,我们完全有能力组织好我局的信息资源加工,实现我局十一规划的信息化建设蓝图。
附录
信息资源建设规划
信息资源建设是信息化建设的重要组成部分,也是影响我局“十一五”信息化建设进程的关键。为了支撑专利审查和传播专利信息,我局信息资源建设要以自主建设专利信息资源为核心,非专利信息资源建设以获取信息服务为主。
本章共分五节,第一节至第四节涉及专利信息资源建设,第五节涉及非专利信息资源建设。
一、专利信息资源建设的指导思想和规划目标
考虑到我局目前专利信息资源现状,特别是在标准化应用数据资源建设方面的巨大差距,为了适应我国经济发展的需要和强局建设的需要,提出我局专利信息资源建设工作的指导思想和规划目标。
(一)指导思想
引进先进资源,直接开发应用,积极消化吸收,盘活内部资源,逐步替代引进,拓展收集,自主创新,实现专利信息资源建设的跨越式发展。
(二)规划目标
1、建设世界一流水平的标准化专利信息资源,构建我局自主的专利信息检索数据库和专利全文图像数据库。
2、建立“统一收集、统一加工、统一管理、一套数据、多种应用”的专利信息资源建设工作体系。
3、提高中国专利文献数据质量,将中国专利文献列入PCT最低文献量。
4、整合我局内部专利业务信息资源,将审查员的智力成果作为增值资源加以利用。
二、专利信息资源的收集
统一收集世界范围各专利机构公布的所有专利文献,为我局信息化建设奠定坚实的信息资源基础。
专利信息资源收集内容包括:基本检索数据、辅助检索数据和全文数据。其中,
基本检索数据主要是专利文献著录项目摘要数据
全文数据是专利全文图像和全文文本数据
辅助检索数据主要包括引文数据、基因数据、化学分子式数据、专利族数据、法律状态数据等
专利信息资源收集对象应当以原数据为主,并确保收集的准确性、完整性和及时性。
专利信息资源收集可以通过国际交换、商业购买以及项目合作等方式进行。
三、专利信息资源仓储与加工环境
建立专利信息资源仓储环境,统筹专利信息资源加工,整合创立健全专利信息资源质量控制检测体系。所有统一收集的专利信息资源,按照需求经过加工或检测之后,通过标准化应用数据库向审查员与社会公众提供信息服务。
专利信息仓储与加工环境主要包括数据仓储、数据加工以及数据检测。
1、数据仓储
数据仓储目的在于集中存储和管理专利信息资源,并在此基础上进行资源的规范化建设,以提高我局专利信息资源的有序性、安全性和合理性。 建设数据仓储系统,用于执行以上任务。
数据仓储系统的主要功能:
集中存储源数据,其数据内容主要包括原始数据和加工数据
为数据加工和数据检测提供数据资源和软、硬件支持
具备良好的信息资源管理能力,实现对数据的规范化管理
2、数据加工
遵循“引进、消化、吸收、创新”的原则,建立我局自身的加工体系,结合专利文献特点,制定不同目标,采用外包加工与内部加工相结合方式开展数据加工工作。
根据WIPO及我局的文献信息标准,制定我局数据加工标准和/或工作规范
建设中国专利信息资源,从不同深度、多种标引角度全面加工中国专利数据,改进中国专利英文文摘数据,提升中国专利文献数据(中英文)产品质量
根据统一的数据加工标准和/或规范,采用标引、翻译等多种手段自主加工建设国外专利文献著录项目摘要数据
根据统一的数据加工标准和/或规范,自主加工建设全文图像数据以及全文文本数据
根据审查员和社会公众的需求,加工建设专利信息辅助数据、专业性数据及专利业务相关数据
3、数据检测
数据质量检测管理贯穿信息资源建设的全过程,目的在于保障数据的完整性、可用性和准确性。其主要职责就是审核控制数据质量,只有通过审核的数据方能向审查员和社会公众提供信息服务。
根据数据对象和加工阶段,制定不同的数据质量控制目标
根据不同的数据质量问题,采取有效的数据修正处理方式
形成以加工人员、检测人员、终端用户以及机器辅助检测为主的数据质量控制体系
四、应用数据库建设
建立的标准化应用数据库,应当具有良好的开放性、适应性、稳定性和安全性,从而实现一套标准化数据资源在不同应用模式下的使用。
标准化数据库建设主要包括基本检索数据库、全文数据库和辅助检索数据库,其中应当以基本检索数据库和全文数据库建设为重点。
基本检索数据库是依据中外专利文献著录项目与摘要数据,形成我局自主建设的中英文并存混合检索数据库。
全文图像数据库主要包括各专利机构公布的专利说明书全文图像数据。
全文文本数据库主要包括以我局工作语言公布的专利说明书全文文本数据。
辅助检索数据库主要是以专利文献中的特定性数据、专业性数据及专利业务相关数据。
五、非专利信息资源建设
非专利信息资源建设应当以审查业务需求为导向,同时满足PCT最低文献量要求的基础上,保证审查业务能够进行有效的非专利文献检索并及时获取全文。
非专利信息资源收集内容主要包括二次出版物、期刊、会议论文集、图书、学位论文、防卫性公布物、百科全书、字典、标准、技术报告、因特网公布物以及其他资源。
非专利信息资源建设应以因特网资源为主,同时充分利用我局现有的电子和纸件非专利馆藏信息资源,并可以通过订购方式获取外部公共图书馆的信息资源。
附件2
中国专利检索与服务平台规划方案
中国专利信息检索与服务平台(以下简称检索与服务平台)是我局在“十五”期间提出,拟在“十一五”建设的重点项目之一,检索与服务平台其目的在于利用我局现有的专利信息资源向社会公众和我局审查人员提供权威的信息服务,提高我局依法行政水平,增强社会服务能力。
一、检索与服务平台的内容和总体目标
拟建设的检索与服务平台将以我局拥有的专利信息资源,即我局公布的中国专利文献、我局从世界各国知识产权局或国际知识产权组织获得的专利文献和我局购买的商业专利文献等作为数据源,对其进行整合与规范,并进行一定层次的加工以获得较高质量的专利信息,以此为公众提供能满足常规信息检索和较高质量信息服务的专利信息检索与服务平台。该检索与服务平台将采用先进的信息技术构件,通过网络为公众、专业人员提供界面友好、操作简便、数据范围广、检索效率高、信息及时、内容准确并具有一定统计分析功能的中国和世界主要国家的专利信息服务。
二、建设检索与服务平台的重要性、必要性和紧迫性
随着知识经济的出现和经济全球化进程的加快,信息资源作为生产要素、无形资产和社会财富,与能源、材料等资源同等重要,在经济社会资源结构中具有不可替代的地位,已成为国际竞争的一个重点。
在各种信息资源中,专利信息是一种基础性、战略性的信息资源。它集技术、法律及市场等多种信息于一体,包含了与发明创造技术解决方案相关的技术信息;与专利权保护范围和专利权有效性相关的法律信息;以及与反映专利申请人或专利权人的经济利益趋向和市场占有欲望等相关的市场信息。其特点是涉及面广、内容全、信息量大、披露早、法律时效性强。它几乎包含了各种行业、各个学科的发明创造。据世界知识产权组织统计,全世界90%的技术成果可以在专利文献中检索到。另据欧洲专利局统计,有80%的技术信息以专利文献形式公布,而且通常仅在专利文献中公布。专利技术信息的披露比包含该技术的新产品上市平均要早1至3年。在专利权有效期内,未经权利人许可,他人不得实施其专利技术。
建设专利检索与服务信息平台是落实科学发展观,大力开发、充分利用专利信息资源,推动经济社会全面可持续发展的重要途径和有力措施,是增强我国综合国力和国际竞争力的必然选择。在我国科技和经济发展过程中,科技创新者、市场经济主体和政府部门都需要充分利用专利信息,拟建设的检索与服务平台将从不同方面满足他们的需求,其作用主要体现在以下几个方面。
(一)有利于提高科技竞争力
从科技创新的角度看,拟建设的检索与服务平台将有利于科技创新者系统地了解已有的专利技术信息,避免重复研发。欧洲专利局2004年3月公布的一份资料表明,由于信息利用的不足,重复发明和重复研发的投入,每年给欧洲产业界造成200亿美元的浪费。科技创新者通过对专利信息的综合分析还可以知晓某项技术的成熟程度和解决该技术问题的多种途径,了解该技术的演变过程和发展趋势,充分借鉴和利用已有成果,合理地规避他人的专利权,提高研发起点,进行高水平的跨越式研发,创造出具有自主知识产权的技术成果,从而提高我国的科技竞争力,推进我国经济结构的调整和经济增长方式的转变,增强我国综合竞争力。另外,在科技创新的管理中,拟建设的专利检索与服务平台也有利于科技管理部门较准确地把握研究开发方向,合理地配置人力和资金等创新资源。
(二)有利于促进市场经济的发展与完善
从社会主义市场经济的角度看,拟建设的检索与服务平台将有利于市场经济主体更好地利用专利技术,还可以较全面地了解竞争对手的技术资产状况,预测技术发展动向,分析潜在的技术市场和产品市场,掌握竞争态势,规避风险,有比较地选择合作伙伴,从而充分利用国内外两个资源,主动参与国内国际市场竞争,促进对内对外贸易。
(三)有利于政府职能转变和更好地履行政府职责
从政府职能的角度看,拟建设的检索与服务平台将有利于市场监管部门及时、准确地获得专利的法律状态信息,从而更有效地履行市场监管职责,维护公平有序的市场环境。通过拟建设的检索与服务平台,政府一方面可以向公众提供专利信息公共服务,使公众能够方便、快捷、全面地获得科技创新和市场竞争的各种有效信息,促进发明创造的传播、推广和应用,实现和提高专利信息的经济效益和社会效益。另一方面,借助于拟建设的检索与服务平台,政府也可以对专利技术、法律信息等进行分析,更好地把握科技创新和经济发展的总体趋势,了解由技术创新产生的行业发展热点甚至可能产生的新兴行业,统筹调节,宏观管理,维护国家利益和经济安全。
(四)有利于改进我国专利信息资源的利用状况,摆脱国外在技术上的制约
目前,我国在专利信息利用方面仍比较落后,与西方发达国家相比存在着较大差距。美、日、欧从上世纪80年代至90年代以来,各自投入超过10亿美元的资金建成了先进的专利检索服务系统,为提高其技术创新能力和知识产权竞争力提供了强有力的支持和保障,而我国迄今尚未建立起一套自主的、高水平的专利信息检索与服务系统。我国现有的专利信息数据库大多存在着数据不够完整和规范、缺乏深度加工、检索技术落后、共享环境与支撑条件差等问题,致使很多专利信息资源没有得到有效利用,造成了信息资源的闲置浪费和技术开发的低水平重复,既无法满足社会公众日益迫切希望能够准确、全面、方便地检索专利信息的要求,也影响了我局的专利审查能力。这种状况使得我们目前只能主要依赖外国专利数据库和检索软件获取专利信息,因此在使用上、技术上、以及数据及时更新上都受到外国专利局和商业公司的诸多制约,也不能够为公众提供高质量的专利信息服务。在当今信息技术快速发展的形势下,我们与西方发达国家的差距有进一步扩大的趋势,对国外的依赖程度也有所增加,严重地制约了我国在经济全球化进程中的竞争力和在知识产权国际规则调整与变革过程中的影响力。因此,为满足公众充分利用专利信息资源的需求,逐步摆脱国外在技术上对我们的制约,并保证我国信息资源利用的独立自主和安全可靠,迫切地需要尽早建立我国自主的检索与服务平台。
三、检索与服务平台的设计思路
拟建设的专利信息检索与服务平台从面向用户的对象角度分为中国专利信息检索系统和国家专利信息服务平台。
中国专利信息检索系统以我局数据资源为依托,借助于其它国外数据资源,向以我局审查员为主的专业人员提供数据全面、质量较高,功能齐全、适于专业检索要求的检索系统。该系统将涵盖我国自1985年以来全部专利文献代码化数据和目前所拥有的全部国外专利信息文摘、全文图形数据,实现跨平台、多数据库检索。系统将充分利用我局现有的专利文献馆藏数据,经过对原始数据的加工、处理,在整合我局已有各类数据库之后,利用门户检索技术,实现信息的智能检索,并逐步建成审查员知识库管理系统和特殊业务领域的专题数据库。
国家专利信息服务平台将按照国家信息规划发展的战略方针,向社会公众提供多项检索入口、适于不同层次用户群体使用的服务平台。专利信息服务平台将在中国专利文摘数据库、中国专利全文代码化数据库、中国专利全文扫描图形数据库、世界专利文摘数据库、世界专利全文数据库和若干个对专利数据深度加工的专题专利数据库基础之上,设计具有初级和高级检索、统计分析、专利预警、专家咨询评估和支持多语言访问等功能的平台。
四、检索与服务平台的功能设计、构架与实施进度
(一)中国专利信息检索系统
1、中国专利信息检索系统功能设计
(1)源数据的配置
使用已通过完成对原有按国际专利分类体系分类的原始数据的分检和加工的专利文献数据,形成基于新分类体系的准确、详实的专利数据。数据的加工支持未来数据交换格式,适应自动与人工相结合的加工过程,采用分布式的加工结构,并为多种数据交换方式提供支持。
(2)数据库异构
基于现有各类数据库,在此基础上进行数据整合,利用先进IT技术手段,在统一的平台上实现门户的检索功能,减少用户切换不同数据库的繁琐,实现办事高效、资源统一,从而降低成本。
(3)智能检索平台
采用B/S多层结构,由专利检索数据库群、检索引擎、WEB服务器和浏览器等模块组成,为审查员提供多种检索途径,数据涵盖范围广、数据质量高,符合我国专业人员检索习惯的检索平台。
(4)知识库管理
结合我局优秀审查员检索、审查的工作经验,利用审查员知识财富,保存具有代表性的审查方法和技巧,储存到知识库,为培训新审查员使用,同时也为提高工作效率提供保障。
(5)专题数据库管理
在系统内部建设一些针对特殊业务领域的专题数据库,为需要特殊检索需求的审查员提供经过深度标引的专业化文献检索数据。
2、中国专利信息检索系统的总体构架
中国专利信息检索系统主要面向以我局审查员为主的专业人员使用,总体构架要部署在企业级的Intranet环境中。系统工作平台全部采用浏览器方式或跨平台应用程序实现。检索系统从逻辑上分为底端的系统数据资源层、整合服务层、服务端构件层、门户支持服务器层和前端的用户接口和客户端应用。系统的体系结构如下图所示:
(1)系统数据资源层
存放系统所需的所有数据资源,包括自1985年以来全部专利文献代码化数据和目前所拥有的全部国外专利信息文摘、全文图形数据,由数据库管理系统及文件系统提供支撑。
(2)整合服务层
由整合服务器提供逻辑数据库支撑,屏蔽异构操作系统和异构数据源的差异性,为系统的数据检索提供一个统一的数据接口。
(3)服务端构件层
将系统检索功能的逻辑实现移至服务端构件层,为地域分布的客户端提供统一集中功能服务,构建应用逻辑由应用服务器提供支撑。
(4)门户支持服务器层
由门户服务器提供门户环境,将后台用于数据库存放的系统数据资源层、整合服务层集成和服务端构件层在这一层面实现对原有组件的重用。
(5)前端用户接口和客户端应用
提供用户界面以及适合客户端实现的少数应用功能(构件发布和监控),放置系统的前端,提供浏览器形式的界面,满足进行中英文统一检索。
3、中国专利信息检索系统实施的步骤
(1)2006年实现基本功能
制订检索系统中数据、应用开发和流程处理等各项标准和规范;利用现有局里的馆藏数据,选定一个检索引擎,设计审查员检索习惯的界面,提供专利检索系统中基本检索功能,包括文摘检索及全文图形的浏览。同时启动专业化检索功能的系统需求分析、系统设计和软件开发。
(2)2009年实现较为强大的功能
继续完善系统的功能和设计,不断开展数据加工及其软件开发业务,使得已有功能在更高的层次和更大的范围内实现软件的更合理的利用,建成含有审查员工作经验的知识库管理系统和特殊业务领域的专题数据库。
(3)2010年进行系统优化
对系统流程和软件开发流程提出更高的要求,完成高层次、特殊需求的检索数据的加工,满足审查人员在专业领域内的数据检索,对已有系统和功能进行优化。
(二)国家专利信息服务平台功能设计
1、国家专利信息服务平台功能设计
(1)检索功能
检索是信息服务平台最主要的功能,包括以下两方面内容:一是常规信息检索,着重体现系统的易用性和灵活性,消除初级用户使用该系统的技术障碍,使初级用户便捷的查询到所需专利信息,利于申请人查询提交专利信息的状态,了解领域内技术发展动态;二是高级检索,以满足专业化检索需求为标准,面向具有自主创新的企事业单位,引导科技创新发展,包括:截词检索、索引扩展功能、同义词检索功能、检索历史记忆、分类导航功能、跨库检索等等功能。
(2)数据统计分析功能
实现对特定检索结果、特定技术领域、特定地理范围、特定时间范围等的统计分析,统计分析的主要内容包括:主题词频、专业分类、IPC国际专利分类、专利申请人、专利发明人、国别省市分布、时间范围分布等。
(3)多语言支持功能
逐步完成对我国现有公开专利文献的英语翻译工作,提供后控制词表对照数据库,建立中文文献与英文翻译文献的对应,首先提供英文的检索,在此基础上总结经验,按照不同需求,再分门别类地实现其他语种,逐步扩大对国外文献重要信息的翻译工作,并应用于专利信息服务平台。
(4)专利预警功能
实现自动预警和人工干预预警,自动预警是指利用预先制定的检索策略,实现对数据库更新数据的定期定时自动检索,并将检索结果自动发送到定制用户的信箱,可用于追踪本课题领域的最新发展动态。人工干预预警是指在检索结果、数据统计分析的基础上,结合专家的分析点评,为用户提供更高层次的预警分析报告。
(5)专家咨询评估功能
以专利信息服务平台为依托,提供在线专家咨询服务,专利战略分析服务,为用户提供定制式的高级专利信息咨询服务。为我国科技和经济发展部门的决策者提供可靠的信息保障。
2、国家专利信息服务平台的总体构架
根据平台功能设计,专利信息服务平台总体构架包括:网络基础设施层、软硬件平台层、专利信息数据库管理层、应用开发层、安全管理体系和IT管理体系。其中应用开发层包括:检索工具子系统、信息发布子系统、信息服务子系统和地方子站点管理子系统等。主要用户对象为社会公众。专利信息服务平台总体构架如下图所示:
(1)网络基础设施层
专利信息服务平台的网络基础设施共分为三个层次,第一层次是平台向公众提供信息服务的Internet接入网络,第二个层次是分布式的平台主站、数据加工中心与用于信息交换的广域网,第三个层次是各专利信息服务平台内部的局域网络。
(2)硬件平台层
专利信息服务平台中存在着多个类型的、通过Internet和专线连接起来的网络站点,这些站点包括能够完成指定任务的、形形色色的硬件基础设施,它们构成了专利信息服务平台的硬件平台层,不同的站点所配置的硬件不同。
(3)软件平台层
软件平台层介于用户对象和底层基础层之间,其中操作系统是软件平台层的核心。软件平台层提供用于平台软件开发的工具、网络通讯协议、应用的支撑工具和平台应用软件,同时还要包括IT管理体系软件和安全管理体系软件。
(4)检索工具子系统
检索工具子系统主要包括:检索数据库模块、通用检索引擎模块、检索应用服务模块、WEB服务模块和用户浏览模块。
(5)信息发布子系统
信息发布子系统是一个提供基于网络的、智能的、集成的信息管理和发布系统。针对不同用户对象及子站点提供一个统一的信息发布平台。包括:用户个性化栏目、频道信息栏目、用户管理栏目、用户监控栏目、维护反馈维护栏目。
(6)专利信息服务子系统
以其他各系统为依托,在满足基本检索与服务功能的基础上,根据用户对信息的要求,提供定制化的、针对不同群体的服务子系统。各模块之间留有二次开发的接口,根据需要提供个性化服务。
(7)地方子站点管理子系统
提供与地方知识产权管理机关用户的接口,提供服务平台内统一、完整的文献数据和保障执法部门依法行政的信息。
3、国家专利信息服务平台实施的步骤
专利信息服务平台按照从局部到全局的实施步骤,首先保证提供图形、代码化的文摘数据,逐步实现提供全部代码化的文献数据。
(1)2007年底完成以下工作
制订平台建设过程中应用开发和流程处理等各项标准和规范,集成加工后的信息资源,构建网络层和硬件层,开发检索子系统和信息发布子系统,实现专利信息服务平台的基本功能,并制定分布式发布平台建设的方案。
(2)2008年启动分布式发布平台的建设
考虑到用户量和国家网络的现状,建设分布式的发布平台。
(3)2009年实现高级功能
不断完善平台的功能和设计,向有特殊需求的服务对象提供具有统计分析功能、专利预警功能和专家咨询评估等功能的服务。
(4)2010年平台的优化
对平台和软件开发提出新的要求,按照社会公众需求和社会经济发展完成高层次、特殊需求的数据加工;在2010年步骤地完成在地方知识产权部门的分布式站点建设。
附件3
电子专利审批系统规划方案
一、什么是电子化的专利审批
电子化的专利审批是指在专利审批的整个过程中采用基于电子信息传输并且电子件作为审查依据的审批流程,专利案卷的纸件可以不必在执行审批工作的各个部门之间流转。从而降低纸件案卷的流转和存储成本(案卷流转过程需要不断进行人工的交接和核销,各个部门都需要为案卷准备足够的库房以存储案卷纸件)。同时,专利审批流程电子化还是提高专利审批效率和质量,降低专利案卷处理成本的重要手段。
二、我局专利审批系统现状
“十五”期间,我局在专利审批自动化领域取得了重要的进展,先后实施了CPMSIII系统、电子文档系统、辅助审查系统、电子申请系统等自动化项目,大大提高了我局审批流程自动化的程度,改善了审查员的工作环境,缩短了审查的周期,提高了工作效率和审查质量,为实现专利审查电子化奠定了基础,积累了经验。
目前我局的专利审查流程是根据纸件推动的审查过程设计的,各个系统也是根据现有岗位的工作进行设计的。并且,由于现有几个系统建设不同步,在设计和实现过程中各系统的关系和接口没有得到很好的定义,使得现有各系统相对独立,没有真正形成完整、流畅的业务流程,并且存在电子数据不完整、错误数据、系统间的数据交互不畅等问题。
目前,世界上主要的专利局都已经基本实现了专利审批流程的电子化建设。美国、欧洲是采用基于图形文档的电子化,日本、韩国是采用基于代码化文档的电子化。因此,实现专利审批流程的电子化是我局跻身世界强局的基本要求,也是我局“十一五”期间信息化建设的重点。
三、电子专利审批系统的设计思路
未来我局电子专利审批系统是要建立一个集专利申请、流程管理、审查、公告、复审、无效等于一体的,而且是统一的、完整的、业务流程贯通的电子专利审批系统,实现从专利申请的提出到专利权失效全部法律程序、全流程、全方位的电子化和网络化。
一件专利申请的法律流程可粗略概括如下:
电子专利审批系统按照这一流程来设计,将现在以岗位为主线的系统逐渐转换为以专利申请生命周期为主线的系统,各个岗位都是该主线上的一个处理环节,检索系统是处理环节中所需的工具,通过数据处理产生出版和文献数据,通过数据挖掘产生决策支持管理系统。
系统要充分考虑到电子案卷信息的准确性、完整性和法律效力,电子案卷包括图形文档和代码化文档两种形式。案卷信息主要包括两方面,一方面是案卷处理过程的记录,包括各种状态标记、各种信息的历史记录、著录事项等等;另一方面是案卷中各个文件的电子化形式,包括申请文件、审查意见通知书、对比文献和申请人提交的各种证明材料等等,电子案卷也就是一种能够在审查过程中完全代替纸件案卷,表示各种文件内容的电子文件。
由于现有流程数据的准确性被普遍质疑,错误的电子数据严重影响了流程部门依赖电子案卷进行审查的信心,使得很多本可以完全依赖电子案卷进行的审查的工作也必须根据纸件案卷进行。只有解决了流程中电子案卷信息的准确性问题,才能够真正让我们的审查人员放心大胆的根据电子案卷所提供的信息进行审查。在“十一五”期间我们要采用先进的技术和现代化的管理手段,降低流程中产生的各种过程数据的错误率,才能增强工作人员对电子专利审批系统的信心,大力推进电子专利审批系统的建设和使用,真正实现专利审批的无纸化、电子化和网络化。
为了使其适应我局业务发展和专利法、实施细则、审查指南及业务规则的修改与变化,电子专利审批系统需要形成不断完善和改造的机制。
四、系统功能概述
专利申请的任何处理都可以通过电子专利审批系统来实现,并且对申请的任何处理均产生电子文档的数据进行保存,作为后续处理和法律证明的依据。对于审查员通过检索得到的对比文献也要建立相应的链接。
系统实现的总体功能简单概括为以下几点:
(一)专利申请
包括电子案卷的网上申请、当面提交和纸件案卷申请后的电子化。在电子专利审批系统稳定运行后,要大力推广电子申请的使用,提高电子申请的比例。
(二)受理
完成专利文件(包括专利申请文件与中间文件)的受理审查、受理通知书的发送、申请号的确定和基础数据的首次采集,为电子专利审批系统提供基本的原始数据。
(三)分类
通过电子数据对申请进行保密审查、粗分类、IPC分类、向电子文档库追加分类号、实审员确认分类号、分类号合法性检查、IPC分类库的维护、公开或公告时分类号的调整等功能。
(四)期限监视
对每一件专利申请从申请日起到结案(包括申请结案和专利权终止)全过程的法定或指定期限进行监控,对逾期未办理规定手续的申请,自动通知事务处理人员并自动使申请的状态作出相应的变化。监控的法定期限能够根据申请日、审查阶段和法律状态自动生成和更新。
(五)费用管理
对每一件专利申请全过程的缴费期限和缴费数额进行监控,费用包括: 从申请到终止各年度应缴费用、已缴纳的合法和不合法的费用、多余的费用、更正的费用、退回的费用。对逾期未缴纳和未缴足规定费用的申请,自动生成通知书,分别通知申请人和事务处理人员,并自动使申请的状态做出相应的变化。监控的法定期限和数额能够根据申请日、审查阶段和法律状态自动生成和更新。
(六)辅助审查
包括发明、实用新型、外观、复审等辅助审查。辅助审查员和有关管理人员完成与专利审查有关的各项业务工作,包括专利申请检索报告的生成、实质内容的审查、通知书的撰写等,建立检索系统的连接,可以方便审查员检索,并产生对比文献的连接,系统可直接调用对比文献。
(七)授权和失效
核对授权通知书、公报袋中的内容是否完整、准确,发送授权和失效通知书,授权公告前的准备。
(八)数据维护
对电子案卷的数据进行维护,保证电子案卷信息的完整性和准确性。
(九)查询浏览
查询申请所处的法律状态和全部电子案卷的内容。
(十)实时统计
对整个流程中的各个审查阶段产生的流程数据,如申请量、各阶段案件的积压情况、审限、保密情况、恢复量、视撤量等进行实时统计,为专利局对整个审查流程的管理和优化提供基础数据。
(十一)电子出版
对要出版数据进行前期电子编辑、处理;完成公报的自动组版;实现光盘出版和从数据库提取、编辑数据,向我局的对外发布系统提供可靠数据。
五、系统总体结构
为了充分利用现有的系统资源,提高系统的可扩展性和整体性,减轻系统维护的工作量,电子专利审批系统采用如下图所示的结构:
六、实施步骤
(一)2006年完成现有系统的分析
“十五”期间,我们已经建设了包括电子申请系统、专利审批流程管理系统、专利审查辅助系统、电子文档系统、电子出版系统在内的支撑我局审查和流程工作的业务系统。首先要对现有系统存在的问题进行分析,为后期的系统整合和优化奠定基础。
(二)2006年至2008年完成数据的规范与准备
图形格式数据和代码化格式数据有各自的优势,如:图形格式数据不便于修改不易引起法律纠纷;而代码化数据可以直接被审查员拷贝,利于撰写审查意见通知书,减轻审查员的工作量。因此电子专利审批系统中应该采用图形文档数据和代码化数据并存的方式,审批过程根据需要调用不同数据。
目前我局已经有除PCT和复审以外、1999年1月1日以后以TIFF格式存放的电子文档,1985年以后公开文献以XML格式存放的代码化数据,在数据的准备上要理清实现电子专利审批需要补齐的数据,存在的错误数据和系统间不一致的数据。
对电子数据进行规范,定义清晰统一的数据源格式和标准。
2006年底前完善图形文档数据库,并建立代码化文档数据库;从2006年底开始对新申请的文件在受理时进行代码化处理,实现电子申请和纸件新申请文件的数据同时进入图形文档库和代码化文档库;到2007年底前补齐全部图形文档数据,2008年底完成以往纸件文档和图形文档的代码化。
(三)2007年完成电子流程体系的制定
在充分考虑电子流程的特性基础上制定适合电子化管理的流程管理体系。也就是说将现有的为了适应纸件的管理模式进行整理,提出在电子化专利审批条件下快捷的流程管理模式。
(四)2008年完成系统的整合
优化系统构架,完成系统的整合;实现我局各业务系统的稳定运行和系统之间的无缝连接,使得业务流程贯通,电子数据在全流程能够很好的使用。
(五)2010年完成系统的优化
对整合后的系统进行优化,不断提高系统稳定性,剔除系统中不稳定因素,提高系统运行速度,增强系统监控手段,形成最终稳定成熟的版本。
七、进度安排
在整个步骤的实施过程中,可以将目前系统运行比较稳定、数据准备相对完善的实用新型审查部先实现电子化的审批,待时机成熟时再实现其他审批流程的电子化。