|
数据管理与保存得到重视
重大项目计划产生的海量科学数据作为国家资源和人类知识库,应进行长期保存和管理,让科学家在未来很长一段时间内可以深入挖掘数据背后的知识。国内外纷纷建立空间科学领域的数据中心/系统,实施数据的长期保存和质量管控。
美国国家航空航天局(NASA)建立了国家空间科学数据中心(National Space Science Data Center,NSSDC)用以保障空间科学卫星任务(含空间天文、天文物理、太阳和空间等离子体物理、行星科学、月球科学和空间物理)档案数据永久安全和长期可用,并为世界范围的科学家提供公开数据服务。截至 2015 年 12 月,仅其所属的行星数据系统(Planetary Data System,PDS)存储和管理的火星、月球、金星、水星各等级轨道探测数据已超过 947 TB。
欧洲空间天文中心(European Space Astronomy Centre,ESAC)作为欧空局(European Space Agency,ESA)空间科学数据中心,也对所有欧洲空间天文、太阳系探测、行星科学、基础物理等卫星任务产生的科学档案数据进行了集中管理和存储。
在空间科学先导专项支持下,我国也建设了集科学卫星数据汇集与分发,数据全生命周期质量控制,数据存储、管理与归档为一体的空间科学先导数据管理系统(空间科学数据中心),有效支撑了“悟空”“SJ-10”“墨子”和“慧眼”卫星任务的实施,促进了卫星成果产出,可保障数据的永久安全。
研究范式发生转变
科学大数据时代的典型特征是研究范式的转变,与传统基于少量数据样本开展理论分析的科研模式不同,大数据时代下的科研人员主要通过对多源、多要素、全样本空间的大数据进行分析,通常结合神经网络、机器学习等大数据技术,挖掘科学大数据中蕴藏的科学知识。空间科学领域研究模式也正向数据密集型科学发现模式转变。
作为数据驱动知识发现的典范,暗物质粒子探测卫星——“悟空”的科学家团队通过对卫星 530 天采集的 28 亿份高能宇宙射线数据样本分析,首次找到了电子宇宙线能谱在 ~1 TeV 处的拐点(异常波动),而这个拐点反映着高能电子辐射源的典型加速能力,拐点下降行为对解释电子宇宙线是否来自暗物质起着关键作用。
针对开普勒太空望远镜(Kepler space telescope)获取的海量数据,NASA 科学家利用深度学习算法构建的机器学习模型具备对低信噪比数据进行自动系外行星识别能力,模型对开普勒太空望远镜数据库 20 万个目标星系数据进行自动搜寻,成功从中找到了Kepler-80 g 和 Kepler-90 i 两颗系外行星。
早在 20 世纪 90 年代,空间物理学研究中便开始采用机器学习等大数据技术对卫星获取的数据进行分析,开展空间天气研究和预报。诸如磁层亚暴触发识别,太阳活动(日冕物质抛射、耀斑)预测和行星际激波预报等。其中太阳耀斑预测更是使用 SDO 卫星 4 年,超过 5.5 TB 的太阳光球层、色球层等图像大数据作为模型的训练输入。事实证明,大数据分析技术对非线性空间天气过程研究和高度复杂度空间天气事件预报具有重要实践意义,数据密集型的研究模式正逐渐发展成空间物理学的主流模式。