企业级大数据项目之数据仓库-南京廖华答案网

企业级大数据项目之数据仓库下载本文

内容发布更新时间 : 2026/7/22 10:29:59星期一下面是文章的全部内容请认真阅读。

第一章数据仓库简介

1.1什么是数据仓库 1.1.1数据仓库的概念

官方定义：

数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。这个定义的确官方，但是却指出了数据仓库的四个特点。

特点：

面向主题：数据仓库都是基于某个明确主题，仅需要与该主题相关的数据，其他的无关细节数据将被排除掉

集成的：从不同的数据源采集数据到同一个数据源，此过程会有一些ETL操作随时间变化：关键数据隐式或显式的基于时间变化

信息本身相对稳定：数据装入以后一般只进行查询操作，没有传统数据库的增删改操作

大白话：

数据仓库就是整合多个数据源的历史数据进行细粒度的、多维的分析，帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。

1.1.2数据仓库的用途

? ? ? ? ? ? ?

整合公司所有业务数据，建立统一的数据中心产生业务报表，用于作出决策为网站运营提供运营上的数据支持

可以作为各个业务的数据源，形成业务数据互相反馈的良性循环分析用户行为数据，通过数据挖掘来降低投入成本，提高投入效果开发数据产品，直接或间接地为公司盈利 ?

1.1.3数据库和数据仓库的区别

差异项特征面向

数据库操作处理事务数据仓库信息处理分析 1

差异项用户功能 DB设计数据汇总视图工作单元访问关注操作用户数 DB规模优先度量数据库 DBA、开发日常操作基于ER模型，面向应用当前的、最新的原始的、高度详细详细、一般关系短的、简单事务读/写数据进入主键索引操作数百到数亿 GB到TB 高性能、高可用性事务吞吐量数据仓库经理、主管、分析人员长期信息需求、决策支持星形/雪花模型，面向主题历史的、跨时间维护汇总的、统一的汇总的、多维的复杂查询大多为读信息输出大量的磁盘扫描数百 >=TB 高灵活性查询吞吐量、响应时间 1.2数据仓库的架构 1.2.1理想架构

一个相对比较成熟的数据仓库架构模型如下：

图1-1数据仓库架构图

数据采集

数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上，期间有可能会做一些ETL操作，例如采用Flume收集日志，采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上

数据源种类可以有多种： ? ? ? ?

日志：所占份额最大，存储在备份服务器上；业务数据库：如Mysql、Oracle；

来自HTTP/FTP的数据：合作伙伴提供的接口；其他数据源：如Excel等需要手工录入的数据；

数据存储与分析

? HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案; ? 离线数据分析与计算，也就是对实时性要求不高的部分，Hive是不错的选择; ? 使用Hadoop框架自然而然也提供了MapReduce接口，如果真的很乐意开发Java，或者

对SQL不熟，那么也可以使用MapReduce来做分析与计算; ? Spark性能比MapReduce好很多，同时使用SparkSQL操作Hive; ? 可以加入Kafka防止数据丢失;

? 实时计算使用Spark Streaming消费Kafka中收集的日志数据，实时计算结果大多保存

在Redis中;

Word文档下载：企业级大数据项目之数据仓库.doc

搜索更多:企业级大数据项目之数据仓库