|
中国生物多样性大数据平台建设的初步框架
针对我国科学研究和社会经济发展的需求,在现有数据资源的基础上,参考相关的国内外研究进展,搭建适合中国国情的生物多样性大数据平台,明显改善中国生物多样性大数据共享环境,并选择数据和合作基础好的类群,将数据整合的范围拓展到洲际甚至全球水平。平台建设的重点是整合国内外生物多样性相关的多元异构数据资源,推动数据开放共享,通过大数据的深度挖掘,在数据产品、科学发现、政府决策和科普教育等多个方面取得重要进展,主要包括下列 5 个方面的内容。
古生物与古环境综合数据集构建及其在生命演化中的应用
集成 GBDB 数据库(地球生物多样性数据库)、VPPDB 数据库(中国古脊椎动物、古人类与古 DNA 数据库)、DFFP 数据库(中国古植物与古孢粉数据库)、PPDB 数据库(中国古气候古环境数据库)、OneMorph 数据库(生物形态特征数据库)、南京地质古生物研究所和古脊椎动物与古人类研究所的标本馆数据库、“国家岩矿化石标本资源共享平台”的古生物地层数据,以及各高校院所的馆藏标本数据库,初步建成中国化石综合数据库和开放的古生物科普网络互动系统。研发数据挖掘工具以及基于云存储的大数据分析软件,用于定量地层对比、生物多样性演替、古地理重建、古环境模拟、系统发育分析等,探索生命演化进程与机制、古生物地理分布与扩散规律、地史时期重大事件对生物界的影响等。研究古生物多样性的演替格局与机制,为探索生命与地球的协同演化、生物多样性变化规律提供关键数据支撑和历史借鉴。
关键核心科技问题:①依托云存储与大数据分析平台,利用定量地层方法、海量化石记录与高性能计算技术,建立高分辨率的生物地层对比序列,其对比精度在万年级,而现有的其他传统技术,深时对比精度通常为百万年级;②建立地质历史时期高分辨率的海陆生物多样性变化规律,并将化石记录与岩石记录关联,探讨生命与环境的协同演化,尤其是地质历史中重大生物灭绝与辐射事件的起因、过程与生物的应对策略;③开发具有自主知识产权的古地理重建和古环境模拟软件,增强现生生物与古生物多样性在地理与环境背景下的可视化功能,识别生物的地理分布与迁徙规律等。
物种多样性及其分布数据整合与分析展示
集成物种资源与分布基础数据,完善和充实物种基础信息数据库(包括物种名录、图像、声音、文献数字化、标本记录数字化等),针对各部委或部门需求建设专题数据库;基于识别物种图像、鸣声、特征等人工智能技术开发物种识别与鉴定系统,探索新的技术在物种分类、生物多样性监测中的应用,支持入侵生物、农林害虫等重要物种快速识别与鉴定;研发数据挖掘软件与知识发现模型工具,以物种多样性大数据为基础,回答物种“有什么?”“是什么?”“在哪里?”“怎么样?”等关键科学问题,产生一批为国家决策、科学研究、科普教育提供支持的信息产品。
关键核心科技问题:①数据来源多种多样,格式不统一,需要建立统一的数据标准规范,开发基于标准规范的数据集成和管理工具,支持数据可持续获取;②不同的研究内容需要不同的模型工具和数据,如何把共同需要的模型工具与数据整合起来,并针对不同内容定制特殊模型进行数据挖掘;③引入大数据与人工智能技术是生物多样性信息学研究的重要实践,如何将传统模型方法与大数据智能模型方法相结合,促进学科发展,更好地为决策服务;④数据产品的展示与可视化直接关系到成果的应用,如何有效地利用可视化平台,提高数据产品可见度,以便更直观地应用到决策和科学发现中去。
生物遗传资源信息整合与服务平台
设计和制定生物遗传资源数据处理和分析规范,设计优化的数据质量控制体系,形成与生态、环境、气候、遥感等数据集成的规范化接口;在此基础上,系统搜集和整合海量高质量、具有代表性的生物遗传资源大数据,实现覆盖植物资源与性状、实验动物资源与功能特征、微生物资源、组学数据、DNA 条形码等数据的广泛、深层次整合,形成完善的生物遗传资源为核心的数据图层。
面向国家《生物多样性公约》履约、濒危物种保护、病原微生物溯源和重要传染病防控、重大疾病的精准医疗等一系列的重要应用,建立生物遗传资源跨国转移监控、利用全基因组序列的食源性病原菌溯源、基于 DNA 条形码的物种鉴定、复杂疾病和相关表型的风险评估、预警和动态监测模型等一系列分析模型。建立基于地理信息系统的生物遗传资源大数据服务门户。对生物遗传资源信息的快速索引与精确匹配,设计交互式图形化分析界面,实现基于地理信息系统的大规模生物遗传资源数据的可视化展示。并整合分析模型,实现高效、实时、动态的决策支持。
关键核心科技问题:①数据、接口的标准化、数据质量控制体系建设及基于统一标准的多源数据整合;②开发异构异质数据的规范化接口,实现生物遗传资源数据与地理、环境、生态、气候、遥感等多源数据的整合,并形成一个完整的图层;③在生物遗传资源数据体系的基础上,针对重大应用需求,开发生物遗传资源转移监控、濒危物种鉴定等数据分析和可视化模型,实现生物遗传资源的挖掘与利用共享,为政府相关部门提供决策支撑,为生物产业发展提供前瞻性、战略性的指导,并实现基于地理信息系统的数据服务产品开发及应用。