生命与健康大数据现状和展望

发布时间:2018-09-07 11:49:35  |  来源:中国网·中国发展门户网  |  作者:鲍一明 薛勇彪  |  责任编辑:赵斌宇
关键词:生命与健康,大数据,现状,展望

国内生命与健康大数据的现状

国内各种类型的生命与健康大数据中心相继建成

具有代表性的包括:①深圳国家基因库,以自产数据为主,作为节点替 EBI 收集数据。②上海生物医学大数据中心,以中国科学院上海生命科学研究院自产数据为主,支持数据递交、发布、管理和共享。③微生物资源与大数据中心,以微生物资源库为主,提供微生物资源注册、查询,微生物知识查询等,用户遍布国际微生物领域。④国家人口与健康科学数据共享服务平台,包含约 400个医学数据库的访问入口,以医药卫生科学数据为主。⑤全国公安机关 DNA 数据库,于 2004 年启动,截至 2016 年 5 月31 日,已有各类数据 4 435.8 万条,其中违法犯罪人员信息 4 071.9 万条、现场物证 149.8 万条;“打拐”DNA 数据库,累计录入人员数据 59.4 万条,DNA 数据 51.3 万条;两库数据总量达到 4 487.1 万条[12]。⑥北京基因组研究所生命与健康大数据中心,数据主要来自于用户递交,数据库支持数据递交、管理、发布、共享、检索、下载、在线分析等。该数据库拥有近 100 个机构的 300 余数据递交用户,70 多个国家和地区的数据访问与下载用户,被 40 余家国际期刊认可;2018 年被生物大数据领域权威期刊 Nucleic Acids Research(《核酸研究》)列为与美国 NCBI、欧洲 EBI 齐名的全球核心数据中心。

存在的问题

我国缺乏生命健康大数据管理公共平台,数据流失严重。生命健康领域的期刊杂志通常要求论文的递交者把发表的数据在学界认可的数据库公开。由于我国缺乏国家层面自上而下的统一部署和规划,造成数据资源严重流失。据统计,2016 年中国大陆第一作者发表的 SCI 论文有 29.06 万篇,但其中绝大部分的数据只能被递交到 NCBI、EBI 等国际知名数据库。据估计,NCBI 数据库中 25% 以上的数据来自中国。

我国缺乏生命健康大数据管理共享机制,形成数据孤岛,利用效率低。过去的十几年里,我国通过项目经费扶持而非国家专项基金支持的形式产出了大量的数据库资源。据基于 Database Commons 数据库的最新统计,我国的数据库资源总数位居世界第二;然而,大部分数据库缺少长期维护,严重缺乏深度的人工审编,数据库内容边缘化。这些因素导致大量数据库资源质量不高,利用率低,数据得不到有效共享。缺乏国家级框架的设计与部署导致我国数据库资源小而散,难以培育出处于国际领先地位的大规模优质数据中心。同样基于 Database Commons 数据库信息统计,我国引用数超过 500 次的数据库凤毛麟角,超过 1 000 次的更是为零。

我国缺乏生命大数据与健康大数据的整合。生命大数据(尤其是组学大数据)与健康大数据通常是由不同主管部门下属的单位产出的。由于部门的分割及利益关系,并且缺少国家顶层的协调和制约,这两大类数据往往脱节,难以形成合力,发挥出最大效果。

<  1  2  3  4  >  


返回顶部