元数据驱动的大数据服务平台 下载本文

内容发布更新时间 : 2024/6/17 21:03:31星期一 下面是文章的全部内容请认真阅读。

龙源期刊网 http://www.qikan.com.cn

元数据驱动的大数据服务平台

作者:佘俊 周宇鹏 王林 董天波 兰天 来源:《科技传播》2018年第05期

摘 要 随着物联网、大数据等IT技术的快速发展,产生了大量多源异构的数据,但这些数据往往是各自为政、孤立存在,数据中蕴藏的知识和价值不能得到有效释放。首先分析了工业大数据的现状和特性,针对大数据时代的数据应用挑战,提出元数据驱动的大数据服务平台的体系结构,利用元数据实现数据标准化管理,并驱动合适粒度的数据服务,实现大数据时代的数据自服务平台,推动数据共享和价值释放。 关键词 大数据;元数据;数据服务

中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2018)206-0105-03

随着物联网、大数据等IT技术的快速发展,包括电力企业在内的行业均产生大量的数据,其数据储存也占据着大量的资源,依据相关数据限制,在未来的发展中其数据总量呈现上升趋势,大数据时代属于一场前所未有的革命。当前大数据主要应用在互联网、传统商业领域,主要是开展客户挖掘、购物行为预测,购物需求分析等。在信息时代下,工业化生产逐渐朝着智能化、柔性化的方向发展。不管是在生产设备,或者是感知设备均属于数据的生产者。依据相关资料显示,制造行业内的数据储存量明显高于其他行业。在2012年其数据储存量已经接近于2EB。随着数据储存量的增长,其管理难度、数据种类也在不断变化,呈爆炸式增长趋势,直接导致工业大数据爆发[ 1 ]。德国的4.0工业、美国的工业互联网行业的深入发展以及“中国制造2025”规划,将促使智能化分析与物联网实现密切配合,以此对现存的生产方式、管理方式进行转变[ 2 ]。德国4.0工业也提出过“智能工厂”“智能物流”等发展理念,在任何一种发现理念中,其数据属于底层核心。工业4.0就是将多源异构的数据整合并支撑前端智能的过程。无疑,数据将会渗透到企业运营的整个生命周期,推动制造业向智能化转型,意味着工业大数据时代到来[ 3 ]。

结合相关资料,工业大数据本身具备采样性、多样性的排列顺序,其数据还具备混杂性的特点[4]。工业数据主要分为密集数据、慢数据、快数据。通过深入分析发现,工业数据还具有多源性、广泛性、动态性的特点,在工业数据的应用与管理上存在着较多的问题与挑战。主要是因为工业数据涉及的部门较多,其涉及的领域也比较广,在实际工作中面临着数据安全、所有权、质量、管理、控制等问题。加之当前我国对工业数据管理与控制上还未能形成统一的管理制度与管理固定,在实际的管理中“信息孤岛”现象普遍存在。这就对工业产生的海量数据,如何进行合理管理,科学储存,以此提升数据资源的利用率,成为当前工业行业改革的重点问题之一。

龙源期刊网 http://www.qikan.com.cn

使用元数据,能够对工业数据进行目录化管理,实现数据服务,这类技术能够弥补传统数据集中中的缺陷,特别是数据集成不完善问题。从而能使工业大数据能得到更好的存储和共享。

1 平台体系架构

多源异构的数据就像一个个信息孤岛,如何集成到统一的数据中心并在统一管理下对外提供数据服务是研究的重点。为了打破数据壁垒,释放数据价值,应用元数据管理技术建立元数据管理平台,实现元数据的采集、变更、删除及检索,并在元数据的驱动下实现数据的抽取、转换、加载,结合数据标准管理、数据模型管理和数据质量管理,建立电子化数据目录,最终实现统一的对外数据服务。

数据中心将来源于设备状态监测、企业管理信息系统等不同来源、不同特性的数据通过统一的ETL过程存储下来,并在此过程中实现元数据的采集和稽核,建立电子化的数据目录并存储在元数据库中,同时在服务平台上建立适当粒度的数据服务。外部应用可以在元数据管理平台中检索元数据和数据服务,并构成数据服务请求进而访问数据,从而实现应用系统以自助

龙源期刊网 http://www.qikan.com.cn

式、自主式的方式获得数据,真正意义上打破数据壁垒,实现工业大数据环境下的数据自服务,释放数据价值。 2 关键技术 2.1 元数据管理

元数据是一种结构化的信息,用于对某项信息资源进行描述、解释、定位,使其易于提取和使用。工业大数据时代,如何从海量数据中发现知识进行分析成为难题。为此通过元数据管理高效支撑海量数据资产的快速识别定位、高效有序管理和智能便捷应用,使决策者知晓数据资产概况,管理者知晓数据资产的健康运行状况,使用者知晓数据资产的来龙去脉。 元数据包括业务元数据、技术元数据和管理元数据。元数据管理以业务模型为切入点,以数据模型(特指基于业务原始数据且未进行逻辑加工处理的模型)为中心,制定业务模型和数据模型标准,管理数据模型、数据应用、数据集成、数据处理、数据视图等对象元数据信息,监控标准的执行情况。