大数据工程师课程方案(HCIA-BigData大数据挖掘分析方向) 下载本文

内容发布更新时间 : 2024/12/24 10:33:33星期一 下面是文章的全部内容请认真阅读。

Bigdata大数据工程师课程大纲(60课时) 第一周 大数据及数据分析、大数据挖掘、机器学习、AI概述 引入案例开篇(衣食住行、无人驾驶机智过人) 大数据人才需求 大数据人才生态 大数据时代:云计算、机器学习、深度学习、人工智能等 神奇作用:百事可乐代言人企业决策、玉兰油企业成效 案例应用:金融、交通、电商企业级用户数据分析应用等 大数据从业者需求现状 大数据认证简介 HCIA->HCIP->HCIE大数据认证考试说明 人才:大数据应用技术工程师、大数据挖掘及机器学习算法岗、大数据系统研发工程师、大数据商业管理岗 大数据环境分析 Hadoop概述 Spark概述 大数据平台架构 数据化决策 数据模型与方法 虚拟化技术、云计算架构 什么是大数据?什么是数据样本、数据集,大数据4V/5V是什么? 大数据集群存储处理技术定义、层次、目的、过程 什么是Spark?Spark vs Hadoop优势、什么是Spark ML?Spark MLLib作用 什么是机器学习? 什么是大数据挖掘? 数据分析、机器学习、大数据挖掘相同点和不同点 数据挖掘技术与传统模型的映射 用户画像与企业可视化战略 大数据场景案例导入、跨行业数据挖掘标准流程 什么是一手数据、什么是二手数据 认识数据 结构化数据VS非结构化数据 结构化数据的变量(数据)类型分类 描述性数据处理 数据获取的原则有哪些? 数据库VS数据仓库 内部数据获取 数据获取 大数据挖掘流程 外部数据获取 关系型数据库SQL、NoSQL非关系数据库技术 结构化数据VS非结构化数据 外部数据获取概述-行业数据、交易数据、API数据等 Python概述 网络爬虫原理 Python数据采集、爬虫 脏数据的成因和处理的必要性,数据处理的常规方法、基本操作、常用函数、数据透视表 数据的描述性分析:集中趋势测度、离散趋势测度等 数据预处理 数据清洗:缺失数据、异常数据等 数据集成:信息孤岛、共享融合数据等 数据转换:数据标准化、数据的代数运 、数据的离散化等 数据规约:变量规约、数值规约等 数据可视化 大数据可视化简介、常用图表、工具介绍、可视化技巧 第二周 Hadoop生态链 Hadoop入门介绍- Hadoop生态系统和技术栈 Linux入门基础-安装和使用Ubuntu系统 Hadoop单机环境搭建 大数据:分布式集群架构 Hadoop环境搭建 Hadoop伪分布式集群搭建 Hadoop完全分布式集群搭建 Hadoop场景 Hadoop优点、缺点 Hadoop风险评估 HDFS分布式文件系统简介、与传统文件系统区别 大数据:分布式文件存储系统 大数据Hadoop平台 HDFS读写文件、实现原理 HDFS架构原理及常用指令 MapReduce计算引擎 MapReduce概念、框架和流程 大数据仓库概念、数据库vs大数据仓库 分布式数据仓库必要性、Hive基础知识 Hive技术架构 大数据仓库 Hbase技术架构 Hive技术层面实现方式 Hive技术应用场景 Hbase基础知识 Hbase集群模式 宽表设计与用户画像 网站流量分析与页面运营 实践项目总结 Spark简介、为什么需要Spark、Spark框架 分布式计算引擎 Spark基本组件介绍 Spark产品 Spark运行架构 Spark和Scala结合 海量日志采集聚合系统Flume原理 日志采集 消息队列 协调服务 分布式消息队列订阅系统Kafka原理 集群分布式协调服务ZooKeeper原理 流式计算框架Streaming原理 分布式算法库基础知识 Spark ML介绍 Spark机器学习 Spark MLLib介绍 机器学习工作流 机器学习项目案例-房价预测 大数据Spark平台 第三周 机器学习入门介绍:机器学习、大数据挖掘、深度学习、神经网络、人工智能体系 机器学习 机器学习基本思想、大数据挖掘基本思想 机器学习常用算法分类、有监督学些、无监督学习、强化学习、迁移学习、算法库等 大数据建模1 KNN算法工作原理、最近邻分类器 KNN算法 KD-Tree和KNN回归 KNN算法应用案例:改进约会网站配对效果 贝叶斯算法 朴素贝叶斯算法思路、全概率公式和贝叶斯定理 贝叶斯网络模型 朴素贝叶斯算法应用案例:互联网垃圾邮件过滤 Logistic回归算法工作原理 逻辑回归(分类) 回归算法 线性回归 Sigmoid函数、梯度上升法 Logistic回归算法应用案例:构建信用卡反欺诈模型 线性回归的相关概念(相关、独立和协方差) 线性回归和最小二乘法 决策树算法工作原理 决策树算法演进过程 决策树 复杂数据的局部性建模 决策树ID3、C4.5、C5.0、CART算法 树和支持向量机 树模型算法应用案例:红酒分类 支持向量机算法工作原理介绍 线性可分的支持向量机 支持向量机 近似线性可分、非线性可分、核函数 SVM支持向量机分类和支持向量机回归 SVM算法应用案例:手写数字识别 聚类分析算法工作原理 聚类分析 K-means快速聚类、K-medoids中心点算法 DBSCAN密度聚类、层次聚类等 集成Bagging类算法 Bagging算法工作原理 随机森林、集成Bagging算法应用场景 Boosting算法工作原理 集成Boosting类算法 GBDT梯度提升树工作原理 AdaBoost、XgBoost算法工作原理、不同种集成算法优缺点 神经网络算法:反向传播神经网路、卷积神经网络、LSTM等 关联规则算法工作原理、基本组成要素 Apriori算法策略与特点 关联规则 大数据建模2 FP-Growth算法策略与特点 PrefixSpan算法模型与方法 关联规则应用案例1:百度搜索引擎中的相关搜索 关联规则应用案例2:淘宝中访问相关页面的关联店铺 协同过滤推荐算法工作原理 基于用户的协同过滤推荐算法 关联与推荐算法 推荐算法 基于物品的协同过滤推荐算法 推荐算法应用案例:新闻个性化推荐 竞品分析-对应分析模型 1、数据的读取及定位需要清洗的数据 2、模型有监督/无监督判断 3、非结构数据处理:空值、重复数据、离群点处理 金融大数据挖掘项目建模步骤 4、数据量纲处理(归一化/标准化) 5、构建评分卡模型/反欺诈预测模型 6、模型的评估与选择 7、模型的优化与封装 聚类和集成算法