|
全面细致的科学数据开放管理
数据管理计划:从理念到实践
1995 年,英国经济和社会研究委员会(ESRC)制定了数据管理计划(Data Management Plan,DMP),要求 ESRC 资助研究所产生的数据尽可能共享,并做好长期保存和高质量管理。美国国家科学基金会(NSF)于 2011 年 1月规定项目申请需包括数据管理计划。近年来,数据管理从纸面计划逐步走向实践:关注数据类型、数据或元数据格式和内容标准、获取和共享重用政策、数据归档计划等。大量图书馆、科学数据中心、科研机构、政府部门、国际与区域组织等参与了数据管理计划实践的技术支持、政策解读与培训教育。
新兴技术应用的持续助推
新兴技术应用助推科学数据开放共享的例子不胜枚举。以下仅就区块链推动的数据共享、公民科学激发的数据生产和数据文献倡议组织(DDI)推行的人机网络互操作等方面揭示冰山一角。
区块链推动的数据共享。科学大数据全生命周期的多层次演化、流水线处理等特征,对数据传输处理和共享提出全新挑战。区块链技术提供了解决方案:使用加密算法和共识机制保证安全;追溯源头并“过滤”,保障数据质量;分布式决策去除中间机构,大幅提升数据共享效率。医疗数据已尝试利用区块链存储共享个人健康数据。此外,分布式边缘计算将发挥更大作用,通过区块链一体化快速实现数据采集、处理和分析。
公民科学激发的数据生产。作为数据采集的新源头,公民科学蓬勃发展。过去 22 年间,生态旅行者提供的近 3 万张鲸鲨图片帮助科研人员有效识别了 20 个鲸鲨聚集点。公民科学的数据价值也不容小觑。例如,公民科学联盟(Citizen Science Association,CSA)现已吸纳超过 80 个国家的会员注册;而该组织所参与的 1 000 余个重要科学计划项目,已有超百万志愿者参与其中。
人机网络互操作。为推动人机网络的可理解性,DDI 联盟推出 DDI3.3,技术内容涵盖分类管理、非调查数据收集、样本和权重、问卷设计、支持 DDI 作为属性图、质量声明优化等,主要应用于社会学、行为科学、经济学和公共卫生领域数据的归档、发现与互操作技术指导。
数据出版与可信存储库
数据出版为科学数据开放管理提供新平台。以数据集及数据论文出版在近年流行,如 ESSD(2008年)、GigaScience(2012 年)、Nature Scientific Data(2015 年)、《中国科学数据》(2015 年)等实践。广义数据出版还包括数据存储库建设。存储库为数据集提供存储和访问平台,支持标准化的数据质量控制和完整的全生命周期管理,分为通用存储库、机构存储库、领域存储库、出版物存储库、图书馆/档案馆/博物馆以及科研项目存储库等类型。可信存储库作为一种稳定可靠的数据基础设施,为包括数据出版等开放数据工作带来技术和管理资源保障。
繁荣的数据管理培训
数据管理培训通过实用性强的短期技能训练,指导科研实践。其中,涵盖 20 个国家节点的欧洲政府间组织ELIXIR整体推进欧洲科学数据管理培训。英国的领域培训涉及 DCC(通用)、CAiRO(艺术),DataTrain(考古学、人类学)、DATUM(健康卫生)、DMTpsych(心理学)、科研数据 MANTRA(地学、社会科学和临床心理学)等。CODATA 面向发展中国家科研人员连年提供数据管理技术培训。Data carpentry由软件培训衍生而来,与世界多国合作开展培训推广。此外,数据科学专业学位教育也日渐兴盛。
影响力全面计量
始于数据引用。2010 年至今,国际科技数据委员会(CODATA)数据引用与实践工作组详细讨论了“数据引用标准与规范”;2014 年,美国信息科学与技术协会(ASIS&T)数据访问与保存峰会重点探讨数据引用、元数据、数据重用;哈佛大学量化社会科学研究所(IQSS)在 2014年启动数据引用研究项目。高校图书馆与非营利性组织(如 DataCite、ICPSR)也参与到数据引用规范的制定与推介培训中。
替代计量学的社会化视角。替代计量学基于大众社交媒体、传统主流媒体、学术社交媒体、网络博客、文献管理软件等网络数据来综合评价学术成果的社会影响力(包括被浏览、保存、讨论、推荐、引用等情况)。
数据计量更进一步。从传统文献和参考文献扩展到数据和文献、数据和数据、数据和数据集间的多重关系,更关注“数据”“学术记录”以及“学术个人”。