大数据共享研究 下载本文

内容发布更新时间 : 2024/11/17 7:46:23星期一 下面是文章的全部内容请认真阅读。

大数据共享研究

摘 要:文章介绍了大数据及大数据共享的含义,详细介绍了实现大数据共享的硬件及软件条件。在硬件方面着重介绍了大数据中心的模块建设方式,在软件方面比较系统地介绍了大数据共享的相关技术手段等,对大数据相关立法和政策进行了讨论和展望,文章紧贴当下大数据的发展,在此基础上积极探索目前还尚未成熟的大数据共享领域。

关键词:大数据;数据共享;平台 1 大数据共享的含义 1.1 大数据共享介绍

大数据共享,是让不同地方使用不同计算机、不同软件的用户,即不同终端,按照一定的规定和安全共享机制,通过网络(局域网或互联网)等读取他人共享的数据并进行各种操作、运算、分析和管理的行为。从广义上理解,大数据共享在内容上不仅包含了海量数据的共享,还涉及到大数据软件程序、大数据科学和工程系统及大数据的应用实践等内容。数据开放利用程度越高,信息知识作为生产要素就会越高。

1.2 大数据共享的意义

大数据共享,涉及大数据技术及大数据应用,在实际应

用上大数据共享具体体现在海量数据的共享、大数据平台的共享、大数据技术的共享和大数据应用共享。大数据共享的特点,也更合理地体现了大数据自身的重要价值。大数据共享使得不同层次、不同部门信息系统更加合理地进行资源配置、节约社会成本、创造更多价值,不仅能提高信息资源利用率,避免在信息采集、存贮和管理上的重复浪费,有利于更合理安排物力和财力,发挥人的更大价值。从发展上看,工信部电信研究院政经所马志刚认为数据开放与共享是提高社会生产力的重要前提,这里所探讨的大数据共享也更清晰地把数据共享这项发展性的工作落到实处。 2 大数据共享的软实力建设

大数据共享软实力包含大数据共享平台架构之Hadoop技术、流计算、数据仓库、信息整合、大数据搜索引擎、大数据可视化、大数据应用程序开发、管理系统和共享安全机制等。

2.1 大数据共享平台架构之Hadoop技术

Hadoop是Apache基金会开发的一个开源分布式系统基础架构项目, Hadoop主要核心由HDFS、MapReduce组成,包含HBase和Hive等经典子项目。Hadoop底部利用分布式存储系统(HDFS)将文件分布式存储到硬盘,上部MapReduce将大的数据分成小块逐个分析,再提取出数据汇总分析,编写简单的需求命令获得所需数据内容。

2.2 流计算

流计算面对的是存贮在硬盘、内存或者其他地方的已存数据。流计算是指数据和控制在一个分布式网络中以某种流的形式传递,网络中的节点对流进行处理和分发,同时这些流往往具有高实时和高流量的特点,再形象化一点描述就是在数据产生并流入系统时就进行处理并马上得出结果。因而区别于以往基于RPC和RMI的分布式系统,也区别于Hadoop的相对静态的处理系统。流计算面对的是没有存储下来的实时的网路数据流,计算意义在于对数据挖掘处理后选取可以提取有价值的信息存储下来,不会对原始数据进行存储,并且数据流的价值随时间流逝而降低。基于实时数据的流处理是大数据发展到现在已经相对成熟的技术。 2.3 数据仓库

有关大数据的共享,必须依赖一定硬件条件,这里引入数据仓库的概念,数据仓库是一个集成的、面向主题的、随时间变化、非易失的数据集合。数据仓库区别于数据库,数据仓库相当于一个环境,为用户提供用于决策支持的非结构化和半结构化的当前或历史数据(传统的操作型数据库中很难或无法得到)组成数据仓库系统的要素简单概括为数据仓库式数据库、数据载入工具、数据抽取工具、信息发布系统、操作型数据、外界数据、访问工具、数据集市、操纵平台、元数据及管理平台。