统计局大数据统计平台建设方案智慧统计大数据云平台建设方案-南京廖华答案网

统计局大数据统计平台建设方案智慧统计大数据云平台建设方案下载本文

内容发布更新时间 : 2026/7/26 19:58:16星期一下面是文章的全部内容请认真阅读。

案，语义字典明确定义其统计口径和含义。不同统计口径的指标必须用不同的名词。如果发现一个词已经在语义字典中有了，就必须走流程申请注册一个新词到语义字典。

（3）脏数据处理

脏数据的种类有如下几种分类：

图3-8脏数据分类图

1. 数据缺失：处理过程中因系统或人为导致部分记录缺失的，如一条记录里缺一些值（空值），或者两者都缺。如果有空值，为了不影响分析的准确性，则判断是否将空值纳入分析范围，或者进行补值。前者排除空值会减少分析的样本量，后者需要根据分析的计算逻辑，选择用平均数、零、或者等比例随机数

等来填补。如果缺少记录部分，若业务系统中还存有这些记录，则可以通过系统再次导入解决，若业务系统内也没有上述记录，则通过手工补录或者放弃。

2．数据重复：相同的记录出现多条，则去掉重复记录。如出现不完全重复情况，比如两条会员记录，其余值都一样，但部分值不同，如住址不一样，则以时间属性做为新值判断依据，如无时间属性的，则通过人工判断处理。

3.数据错误：数据没有严格按照规范记录。比如异常值，价格区间明明是100以内，但出现有价格=200的记录；比如格式错误，日期格式录成了字符串；比如数据不统一，有的记录叫XX，有的叫LZ，有的叫lanzhou。对于异常值，可以通过区间限定来发现并排除；对于格式错误，需要从系统级别找原因；对于数据不统一，系统无法处理，这些并非真正“错误”的记录，如系统无法判断LZ和lanzhou是同一事物，只能通过人工干预解决，如做一张清洗规则表，给出匹配关系，第一列是原始值，第二列是清洗值，用规则表去关联原始表，用清洗值做分析结论，或通过近似值算法自动发现可能存在不统一的数据。

4.数据不可用：数据正确，但不可用。比如地址写成“XX省XX市西固中街1号”，想分析“区”级别的区域时还要把“西固”拆出来才能用。这种情况最好从源头解决，即数据治理。事后补救只能通过关键词匹配，且不一定能全部解决。

基于数据交换系统采集文化产业数据之后，结合业务现状对源数据进行加工（脏数据清洗、数据整合，统一数据指标）。提高数据可用性。

3.4.3基础模型搭建（1）搭建目标

结合XX统计局业务情况进行，对已采集数据进行汇总，针对分析人员及领导重点关注业务及数据分析习惯，对ODS数据进行轻度/重度汇总，搭建模型存放于WEB资源池中，为OLAP多维分析、定制报表开发、自主取数进行数据支撑

图3-9 WEB资源池架构

统计基础数据：轻度汇总数据，数据粒度较细，主要用于清单数据提取，OLAP多维分析

统计综合数据：重度汇总数据，数据直接反映了某一指标总体情况，用于分析人员汇报、辅助领导决策。

互联网数据：通过对PC网站、手机站点、微信、APP网络途径进行网络爬虫技术分析所采集的数据。

相关部门数据：XX统计局相关合作部门数据。（2）建模依据

根据XX省统计局相关规划，基础模型搭建主要围绕文化产业统计、”三新”统计、宏观经济预测四个方面进行数据模型建设。

结合分析部门具体需求，对底层数据进行建模处理，将底层数据进行关联、汇总得到统计基础/汇总数据，数据存放与WEB资源池，用于支撑后续OLAP分析，报表分析，针对自助取数功能，分析人员可直接在页面通过拖拽方式对新增指标进行分析。

3.4.4多维分析模型搭建

通过搭建多维分析模型，可以有效的对全行业务数据进行更加灵活的查询，更加多样化的展现方式，更加丰富的数据探索能力。本期建设基于三新统计、文化产业统计、宏观经济分析四个方面的进行多维分析模型搭建，业务管理人员能够从多角度对信息进行快速、一致、交互地存取，并能够结合自身分析思路，获得对数据的更深入了解，有效地将各种相关的信息

Word文档下载：统计局大数据统计平台建设方案智慧统计大数据云平台建设方案.doc

搜索更多:统计局大数据统计平台建设方案智慧统计大数据云平台建设方案