内容发布更新时间 : 2024/12/27 6:36:01星期一 下面是文章的全部内容请认真阅读。
龙源期刊网 http://www.qikan.com.cn
基于网络数据包的大数据分析程序设计与开发
作者:叶娟
来源:《软件工程》2018年第01期
摘 要:基于网络数据包环境下大数据分析任务对精准度与速度要求不断提升,本文在此基础上重点论述大数据处理开展的理论环境。基于传统技术方法中存在的弊端,重点论述技术方法优化解决措施,提出大数据分析程序的有效设计方法,从而达到最佳数据处理效果,帮助提升网络数据包文件下载速率。
关键词:网络数据包;大数据分析;程序设计 中图分类号:TP311 文献标识码:A
Abstract:Given that the requirements for accuracy and speed in big data analysis is in rapid escalation in the network data packet environment,this paper mainly discusses the theoretical
environment for big data processing as well as technical optimization solutions based on the existing drawbacks in traditional technology and methods and proposes an effective design method of big data analysis program,aiming to achieve optimum results of data processing and to help accelerating the download speed of network packet files.
Keywords:network packets;big data analysis;program design 1 引言(Introduction)
网络数据包技术下,数据处理可以同时完成更大任务量,对于发展期间比较常见的数据处理隐患问题,通过数据分析处理也得到了有效预防控制。大数据分析程序设计中,充分利用云计算技术来提升数据处理速度,将数据处理任务结合环境来进行,在处理数据的同时进行数据对接传输,满足程序运行控制需求。面临大工作任务环境下的数据处理,程序内会自动将处理能力从TB级向FB级转变,最大程度优化数据处理系统应用效率,避免在最终功能上因此受到影响。批量处理符合大数据程序运行特征。面对大数据环境所开展的批量处理,将客户信息建立成为一个整体,共同进行数据处理。根据所得结果进入到更细致的分析环节,从而实现程序运行的数据处理任务[1]。
MapReduce属于当前常用的大数据处理系统,在处理过程中能够满足大规模群任务需求。在该系统中,将不同任务需要之间整合在一起,共同形成大数据处理模型。该项处理技术属于主流技术,应用后自动化性能更理想,处理运算能力强大,同时操作界面更简单且利于理解[2]。该项技术在数据处理期间可以将复杂的处理过程隐藏起来,节省显示界面所占据的内容空间。同时通过学习记忆功能来实现更深层次的数据挖掘和算法应用,为管理计划进行建立一
龙源期刊网 http://www.qikan.com.cn
个适合的基础环境,记忆所处理的数据并编排成为历史数据库。面对海量数据处理任务,首先会进行历史数据对比,参照记忆功能来处理剩余部分数据,自然能够节省大量时间,这也是该项技术最常使用的原因。随着计算机网络技术不断发展,也产生了更多的大数据处理系统,可以满足不同类型的高端数据处理需求。本文将针对这一技术性方案展开探讨。 2 传统网络数据包大数据分析模式(Big data analysis mode for traditional network packets) 2.1 BSP计算模式
数据信息处理采用周期性方法,在处理系统中将数据整体划分成为多个单元格,再依次完成各个单元格的处理任务,在精准度上可以达到大数据分析标准。但由于划分单元格过多,面对海量数据处理分析需要一段时间,在时间和速度上难以达到最佳使用效果。每个数据均会在单元格内完成分析计算,对于计算期间的各项处理分析任务,机遇网络数据包环境下面临大量处理任务,这也是当前常用技术性方法,其数据分析构成模型如图1所示。
图1表示为BSP计算模式的结构状态,在系统中会自动将需要分析处理的数据进行汇总,整理成为等待处理的数据,划分单元结构基础上共同进行多核处理,通过这种方法来帮助节省时间。在超级处理步骤中会同时启动多项处理器,共同参与到全局通信系统中,将网络环境中所获取的数据通过这种方法来整合成为需要的模式。传统处理模式中需要大量时间来调动各个处理器,在效率与时间上急需调整。 2.2 BSP模式中的缺陷
该模式中存在一个超级步骤,在此环节中应用处理器来对数据进行处理、传输都会浪费大量时间,同时面对多项信息处理任务时在信息容量上也很容易达到上限,数据开发期间更是难以达到最佳使用效果。基于网络数据环境下实现大数据分析程序开发设计,需要一个适合的数据存储环境,而在BSP模式下并没有达到这一效果,处理问题的能力自然也因此受到影响[3]。超级处理步骤不仅在存储空间中要求大,数据传输也会同时占据大量网络空间,导致企业信息传输任务进行遇到网络延迟,难以在预期时间内完成分析任务。BSP模式中存在的主要弊端是处理量与网络需求之间的矛盾。该种开发模式在运算方式上需要继续优化改变,这样才能达到最佳效果。对于运算期间可能会产生的问题更要采取预防控制中方案,以免最终的功能稳定性因此受到影响。
3 基于网络数据包的大数据分析程序设计构想 3.1 SAT模型逻辑分层
逻辑层共由三个结构组成。首先S层是针对数据进行分隔,避免分析处理过程中数据之间出现干扰。A层中表示数据分析处理和处理过程中的任务操作稳定性,会根据大数据处理特征
龙源期刊网 http://www.qikan.com.cn
来有针对性地规划相关信息,从而达到最佳处理分析效果。T层中则表示数据分析过程中的加工整合和具体包装情况,与实际情况之间相互对应进行,可以根据不同数据分析任务中的特征来进行包装优化,符合网络数据包大信息量使用特征,最终控制任务进行效率也更高速。SAT模型的具体大数据分析流程图如图2所示。
由图2可知,在SAT模式中,大数据处理各个任务划分十分严格。对于分析处理过程中可能会产生的问题,在此环境下也能得到充分解决。有关于现场任务处理中可能会产生的问题,各个模块中可以加入预防程序,在大数据处理过程中启动这一程序,从而达到最佳分析效果。与之相匹配的数据分析处理任务,最终结果也更加理想。为提升大数据分析速度,五个功能模块采用统一系统进行总控制,最大程度减少中间处理环节,这样在处理时间上更优化节约。该模式下可以充分调动多个系统之间相互合作,共同完成处理分析任务,从而实现对控制计划中的综合控制,分析层之的间转换也更高效和谐,分析结果也能直接通过程序运行展现出来。
3.2 SAT大数据分析程序实现流程 (1)数据预处理
在使用需求的基础上对数据信息进行预处理,并结合实际情况观察所分析数据是否在使用中与实际情况可以保持一致。在网络数据包的基础上所开展的数据分析和处理,需要充分利用云计算技术来帮助处理数据。预处理后能够将分析任务进行模块划分,确定其具体属性所在,在此基础上帮助提升最终功能,并结合各项技术性方法来探究相关问题的解决处理措施,建立起各个数据库预处理联系性,以便更好地确定其属性[4]。模糊预处理可帮助节省大量时间,并筛选出其中重要信息内容,进行接下来更深入的任务分析,发现问题后充分探讨其解决规划措施,从而达到最佳处理效果。模糊处理后筛选出的数据需要进行二次精准分析,进入到分析程序中的循环部分[5]。因此在对程序进行构建期间,循环流程也是不可缺少的。将多项任务相互结合共同高效运行,可以达到理想的使用效果,并为管理任务开展建立一个适合的基础环境。设计筛选后的数据集合,二次循环过程中的数据分析可以针对这部分信息来进行,从而帮助节省大量时间,进入到系统分析平台中。 (2)淘汰失效数据
预处理和分析任务结束后,都需要进行现场预处理,观察到信息结果与实际情况之间存在差异性联系后,将无用数据进行淘汰处理。系统程序内自动完成这一任务,将失效数据删除后可节省大量存储空间,数据分析任务进行也可以在特征数据库中进行。为了解决系统复杂性带来的挑战,人们需要结合大数据的价值稀疏性和访问弱局部性的特点,针对能效优化的大数据分布存储和处理的系统架构,以大数据感知、存储与计算融合为大数据的计算准则,在性能评价体系、分布式系统架构、流式数据计算框架、在线数据处理方法等方面展开基础性研究,并对作为重要验证工具的基准测试程序及系统性能预测方法进行研究,通过设计、实现与验证的