内容发布更新时间 : 2024/12/27 6:26:27星期一 下面是文章的全部内容请认真阅读。
浅谈数据密集型数据资源云平台的构建
美国《福布斯》杂志称如今,在浏览新闻网站或者是参加行业会议时,想看不见或听不到大数据这个词几乎是不可能的,大数据已经成为产业界、科学界和政府部门等各界的关注热点。近几年来, 《Nature》、《Science》等国际顶级学术期刊相继出版专刊来推动大数据的研究,中国、美国等多国政府也展开了对大数据的研究部署工作。产业界已经率先认识到大数据所蕴含的海量价值及其战略意义,Amazon、Google、IBM 等IT 巨头纷纷探索应对大数据的解决方案,云计算逐渐成为他们共同的探索方向。科学界也逐步意识到大数据的影响,认为随着大数据时代的到来,科学研究已经进入数据密集型科学研究( Data-Intensive Science Research) 阶段,科学范式的转变成为科学界的研究重点。本文探讨了数据密集型科学研究的内涵和特征,以及科学界面临的挑战,并构建了数据资源云平台以帮助科研人员应对数据密集型科学研究中的问题。 1 数据密集型科学研究的内涵及其特征
数据密集型科学研究是直接从海量数据中发现科学规律的一种研究范式,是在大数据环境下对实验科学、理论科学和模拟科学的继承与发展。它由三个基本活动组成: 科学数据的采集、管理和分析,其数据来源主要有大型国际实验,跨实验室、单一实验室或个人观察实验,个人生活等。在这一新的科学研究范式中,先利用科学仪器或者模拟方法采集数据,然后通过计算机软硬件设备进行数据的管理和分析,
将处理分析后的数据、信息和知识存储在计算机中。信息科学贯穿科学活动的始终,而科研人员对数据的审视是在整个科学活动中比较靠后的步骤才开始的。数据密集型科学研究作为科学大数据环境下科学研究的新发展,具有以下三个特征:
( 1) 数据驱动,而不是假设驱动。传统阶段,实验科学、理论科学和模拟科学能够获得和使用的数据相对匮乏,只能采取假设驱动型研究方法,首先根据前人研究成果和自身知识进行假设,然后通过设计实验、理论推导或者是计算机模拟等定义好的方法获取相关数据,对假设进行检验。而现在科学研究已经从数据缺乏时代过渡到数据泛滥时代,数据密集型科学研究不需要模型和假设,科研人员的关注重点也从我要怎么验证这个假设转变为我能从这些数据中发现什么关联,数据成为科研活动的起点和驱动力。
( 2) 强调可重复性。科学研究是人类认识世界、改造世界的重要手段,保证科研结果的可靠性和真实性是科学研究的前提,而可重复性是检验科学研究结果可靠性和真实性最有效的手段。在数据密集型科学研究中,技术的进步使数据传播速度更快、范围更广,产生的影响也更大,所以为了更好地保障科学研究的可信赖性,必须更加重视科研活动的可重复性,从而尽快识别出错误的或者弄虚作假的科研结果,将负面影响降至最低。
( 3) 相关关系,而不是因果关系。数据密集型科学研究通过对科学数据的分析和挖掘,直接从科学数据中发现科学规律,认识事物的相关关系,其精髓在于客观,但不能像实验科学、理论科学和模拟科学
那样检验逻辑上的因果关系。然而科学研究是人类认识世界的手段,其目的不仅是发现科学规律,还要探索规律运行的本质原因,得到相关性之后还需要结合前三种科学方法解释因果性。
数据密集型科学研究是对前三种科学的继承与发展,将其作为一个新的、科学探索的第四种范式,具有重大的价值和意义,当然也面临一些新的挑战。
2 数据密集型科学研究面临的挑战 2. 1 科学数据层面的挑战
科学数据面临来自诸多方面的挑战,但从研究的角度来说,根本挑战在于其规模性、复杂性和特异性。
( 1) 规模性是科研大数据最明显的特征,也是科研人员所面临的首要问题,主要表现在原始数据的规模性和数据增速的规模性: ①原始数据的规模性。科学研究是持续性的活动,传统科学已经产生海量数据积累,如澳大利亚的平方公里阵列射电望远镜项目自开展以来,每天都能产生好几个千万亿字节( PB) 的数据; ②数据增速的规模性。随着科研人员的研究方法和研究仪器越来越先进,科学研究能够生成和获取的数据量越来越多,数据量的增长速度已经超过了数据存储能力的增长速度,导致数据存储和处理能力与日益增长的数据量之间的矛盾愈加尖锐。
( 2) 复杂性是科研大数据的重要特征,给科学数据共享造成巨大困难,主要表现在数据类型的复杂性和数据结构的复杂化: ①数据类型的复杂性。美国国家科学委员从科研研究类型角度将科学数据分为4