内容发布更新时间 : 2024/11/19 11:24:17星期一 下面是文章的全部内容请认真阅读。
创新创业大数据平台建设解决方案
根据权威媒体统计,69%的政府和企业危机来自于互联网。
对互联网信息的接入将在信息资源的规模上对大数据提供更加丰富的数据资源。本项目将对互联网门户网站、网络社交论坛、微博舆论信息等相关信息资源进行接入。
? 互联网分布式爬虫
对互联网数据的获取主要依赖于网络爬虫技术实现。创新创业大数据平台采用先进的分布式网络爬虫框架,由框架完成爬虫的统一调度、管理和维护工作,以及被采集数据的统一存储工作。爬虫使用者只需要进行简单的配置或开发极少量脚本代码即可完成一个复杂页面甚至网站的爬取工作。
另外,平台在合法范围内适当利用反防爬虫技术,如验证码识别、动态IP、动态用户等,从而保障互联网数据的有效获取,减少人工干预,节约成本。
平台提供部分互联网门户网站、网络社交论坛、微博等系统的爬虫,并采集相应数据以供平台使用。对于以后新增的应用,如果需要用到其他网站的数据,则可以基于爬虫框架,使用平台提供的SDK套件开发相应的爬虫。
? 互联网门户网站信息获取接入
互联网门户网站信息获取接入是利用分布式网页爬取技术,以及基
创新创业大数据平台建设解决方案
于行业领域字库的模式识别技术,实现对各类新闻门户网站、行业领域专业门户网站等相关B/S网页进行实时解析获取符合条件的数据。
互联网门户网站信息爬取的对象如下:
? 对新华网、人民网、中国新闻网、新浪网、搜狐网、腾讯网、网易网、凤凰网、省级新闻网等各大综合类新闻网站的实时监控,获取符合条件的电子政务相关的信息。
? 对中国气象网、中国地震台网、交通网、减灾网等行业领域门户网站的实时监控,获取气象、地震、交通、自然灾害信息。 ? 其他政府期望及时获取的有价值互联网信息等。 ? 网络社交论坛信息获取
与门户网站信息获取方式类似,网络社交论坛信息获取同样通过网页的爬取技术获取互联网中的社交论坛信息。主要提供以下相关内容的获取:
? 对天涯社区、猫扑社区、搜狐论坛、凤凰论坛、网易论坛、新浪论坛、凯迪社区、强国论坛、中华网论坛、新华网论坛、环球网论坛、红网论坛等众多主流论坛的信息进行实时监控,获取符合条件的电子政务相关的信息。
? 对搜狗说吧、百度贴吧等公共交流平台中的信息进行监控,获取网民反映电子政务相关的信息内容。 ? 微博信息获取
微博信息获取主要通过调用爬虫对新浪微博的网页爬取方式,对微博用户发布的信息进行实时的爬取,微博信息可以进行基础的统计分析,为未来深层次利用做好准备。
创新创业大数据平台建设解决方案
3.1.2 数据管理子系统
3.1.2.1 元数据服务系统
? 元数据库管理
基于Web浏览器端,向后台系统管理员提供根据数据平台内部的元数据标准(数据描述元数据、服务信息元数据),分别进行对应元数据库的创建与管理的功能。
? 元数据管理
? 基于Web浏览器端,向后台系统管理员提供对元数据文件导入的功能。
? 基于单机版元数据编辑器,向后台系统管理员提供对数据描述元数据的创建编辑保存功能。
? 提供基于元数据检索、元数据入库存储、元数据修改删除功能的元数据管理WebService服务。 ? 元数据服务管理
基于Web浏览器端,向后台系统管理员提供启停元数据服务的功能。
3.1.2.2 数据目录和接口标准管理系统
大数据资源目录体系梳理包括对政务信息资源核心元数据标准、分类标准、标识编码标准等方面进行梳理。参考国家对政务信息资源分类体系的制定标准,经过先期梳理,可将政务大数据资源目录梳理为 21个一级类,133个二级类。
创新创业大数据平台建设解决方案
代码 ZA ZAA ZAB 目录名称 综合政务 政务综合类 方针政策 描述和说明 关于政治方面的事物和和国家的管理工作 与政务管理相关的综合性事务,包括政务督查、电子政务、信息公开 政府制订的、宏观的、指导各个领域发展的方针政策 关于政府的规章制度、组织机构建设和发展,以及工作职责等相关信ZAD 政府工作 息 ZAE ZAF ZAG ZAH ZB ZBA ZBB ZBC ZBD ZBE ZBF ?? 机构编制 政府领导 会议、会务 重大事件 经济管理 经济管理综合类 经济发展计划 经济管理 经济体制改革 经贸管理 统计 ?? 关于机构编制的管理、机构体系的当前概况和远景规划 关于政府各级领导的简历、工作岗位、工作活动、讲话等相关信息 会议产生的文件等相关信息,以及会议组织、管理的相关信息 有深远影响的事件的相关信息 关于经济的管理、规划、发展概况 关于经济的宏观的发展规划 关于经济的宏观管理现状 关于经济体制改革的管理和规划、发展情况。 关于经济贸易的宏观管理和发展调查报告、统计资料 关于统计工作的管理和发展情况 ?? (此处只列出部分分类, 整体依据国家标准进行同一分类) 在平台建设的同时结合符合国家标准的平台段数据目录的定义,结合各个委办局的实际接口情况,明确各个委办局数据接口的接入标准,明确可汇聚共享交换的数据分类、数据格式、数据类型、数据接入方式等内容。通过明确的接口标准定义,指导各个委办局的数据接入,并提供必要的技术支持和指导。
数据目录的定义和管理要遵循国家现有政务电子信息化建设的相关标准,同时结合各个委办局数据的地域特殊性进行更细致的完善,确保数据目录在遵循国家标准的前提下,兼容支持本地政府的各类数
创新创业大数据平台建设解决方案
据。
3.1.2.3 数据挖掘和分析系统
数据分析模块子系统作为创新创业大数据平台对外提供数据的深度挖掘和分析服务的核心系统,分布式数据处理子系统提供了对分布式存储数据进行处理的能力。数据分析系统利用多种分布式计算引擎,结合分布式数据存储模型对各类结构化及非结构化的信息资源进行快速的分布式分析处理,并将分析处理后的中间结果数据提供给上层示范性应用以及其他部门业务系统中进行二次利用;此外,模型管理子系统提供各类业务分析模型的新建、修改等管理功能。
创新创业大数据平台的数据分析系统可分为如下几个主要部分: ? 分布式计算引擎支撑系统
在分布式处理领域中,分布式并行技术是最为核心的领域之一。没有好的分布式处理程序的支持,分布式处理就不可能很好的工作,所谓超级计算、大数据分析也就更加无从谈起了。创新创业大数据平台通过提供MapReduce、Spark和Storm三种分布式计算框架,为上层应用提供大数据分布式计算的支撑。这种架构既能够最大限度的满足各种业务模型的需求,同时也能够充分利用政务大数据平台的软硬件资源,提供数据存储访问及分布式计算任务的调度、运行及结果通知等功能。
? 算法及模型支撑系统
数据分析不能一概而论,数据分析需要有基础算法的支撑。随着数据集规模和复杂度的持续上升,对算法要求也越来越高。创新创业大