大数据时代:地质学的挑战与机遇

发布时间:2018-09-07 11:50:20  |  来源:中国网·中国发展门户网  |  作者:翟明国 杨树锋 陈宁华 陈汉林   |  责任编辑:赵斌宇
关键词:地质学,大数据,数据密集型,数据挖掘

地质大数据研究进展

总体来看,我国地质大数据研究还处于起步阶段。一方面,许多人质疑大数据对于地球科学这一门观察学科的适用性,另一方面,多数研究人员还未意识到积累数据、共享数据的重要性,这在一定程度上阻碍了地质大数据的发展。此外,大数据研究追求的“相关性”研究与科学研究中的“因果性”知识发现存在巨大矛盾,这对科学家们的思维方式转变提出了挑战。综合近年来的研究成果,国内地质大数据研究现状可以归结为以下 3 点。

地质大数据的存储管理

地质学发展至今积累了大量的地质资料数据,随着地球信息探测技术的迅速发展,又有源源不断的新的地质数据快速产生。地质大数据不仅有定性、定量数据,还包括文字说明,甚至是地质图件或者是地质工作者在工作中留下的视频、音频文件等资料,而长期的目录文件存储方式极大地降低了数据查询、检索、统计、更新、挖掘等操作效率,导致数据服务能力低下[3]。因此,构建一套能够有效地实现结构化、半结构化和非结构化数据一体化、静态数据与动态数据一体化、地质数据与地质模型一体化存储管理的地质信息系统,对于完成海量地质资料稳定、高效地存放与读取就显得十分重要。

目前已有学者提出进利用云平台、Hadoop 和 NoSQL等技术,借鉴实时 GIS 时空数据模型,实现对地质时空大数据模型的动态管理。Hadoop 是目前大数据存储与处理的标准平台,可以通过 MapReduce 支持大规模数据的并行处理。而 NoSQL 数据库使用分布式节点集动态处理负载。采用分布式文件系统技术可以对地质大数据进行存储并提高数据的容错能力与可靠性。例如中国地质调查局发展研究中心国土资源部地质信息技术重点实验室研发的中国地质调查云平台,就是在这种框架下建立的非结构化地质数据存储组织模式,通过改变非结构化数据的存储、阅读、搜索和应用模式,为智能地质调查提供精确、快速服务奠定了基础。

地质大数据的挖掘分析

大数据时代下的 3 个重要技术取向是:要全体不要抽样;要效率不要绝对精确;要关联不要因果。这迫使我们从数据的类型、数据运维以及大数据带来的挑战性这 3 个维度重新思考数据分析。周永章等认为大数据与数学地球科学的核心应用技术应该包括高维数据降维、图像数据处理、无限数据流挖掘、机器学习、关联规则算法与推荐系统算法等。

数据挖掘是指从大量数据中通过算法搜索其隐藏信息的过程。相较于数据检索和信息提取,数据挖掘需要基于大数据和知识库的智能推理的理论和技术支撑。地质大数据挖掘就是从数据仓库中找寻隐含的特征和规律,并应用在地质规律研究、成矿预测、资源评价、环境保护和地灾防治领域的过程。该过程需要利用涉及到人工智能、机器学习、模式识别、归纳推理、统计学、数据库、高性能计算、数据可视化等相关方法和技术手段,在多主题、多模态的地质数据中自动或半自动地获取新的可被理解的知识,从而为地质专题研究和应用提供决策。

目前,数字地质的任务就是大力推动地质科学的数据挖掘和数据分析方法的更新。如何从规模巨量,但价值密度偏低的大数据中有效地挖掘提取信息是当下地质大数据研究中拟解决的关键问题。地质大数据分析的关键技术主要是对多源(元)异构的地质数据进行综合分析。其中包括对结构化数据的相关性分析,对半结构化数据的信息提取和结合非结构化数据作为以上数据处理结果的验证分析。此外,物联网、虚拟现实、云计算等技术兴起,使得基于互联网的地质数据资源共享平台的研制成为可能,也为复杂地学计算提供了条件。将云计算、人工智能融入地质大数据挖掘与分析已经成为新的发展趋势。例如,有学者借鉴了大数据思维,利用贝叶斯网络探寻矿床的成因机制,从而构建大数据-智能矿床成矿与找矿模型,推动从“数字地质”到“智能地质”的革命。

<  1  2  3  4  5  >  


返回顶部