大数据真实电商数据仓库全流程开发详解
2019-04-14 08:23发布
生成海报
主要内容为:
第一部分:数据仓库基础理论与技术圈 第一章:互联网电商大数据环境 第二章:商业智能与数据仓库基础理论 第三章:维度建模基础理论 第四章:电商大数据一般架构 第五章:电商数据平台从零搭建方案参考第二部分:Hadoop&Hive数据仓库技术 第一章:电商全分布式开发环境搭建 第二章:Hadoop&Hive光速入门 第三章:HiveSQL语言全解释 第四章:Hive内部运行机制 第五章:HiveSQL优化第三部分:电商核心业务知识详解 第一章:订单商品模块 第二章:客户模块 第三章:活动模块 第四章:流量模块 第五章:电商用户画像项目详情:第一部分:数据仓库基础理论与技术圈第一章:互联网电商大数据环境1.职业环境2.可能会有哪些重点项目3.可能会有哪些重点方向4.每天会做什么工作5.电商项目的生命周期6.Hadoop在国内的情景7.待遇怎么样8.工作机会介绍9.关于猎头的知识第二章:商业智能与数据仓库基础理论1.BI的作用2.BI的构建3.数据仓库基础理论:数据仓库,企业信息工厂,维,事实表4.数据仓库基础理论:数据集市,ODS,元数据,ETL,OLAP第三章:维度建模基础理论1.维度建模-基础术语2.维度建模-建模中的三种模型3.维度建模-维度的类型4.建模的一般过程5.库存管理业务建模实例6.电信DW建模实例演示第四章:电商大数据一般架构1.数据流向介绍2.电商源系统和源数据特点3.数据抽取与装载策略4.DW层数据特点5.DM层数据特点6.元数据管理7.报表层数据特点第五章:电商数据平台从零搭建方案参考1.技术选型建议2.真实电商数据仓库架构解密3.真实电商数据仓库架构各层实现细节4.中等规模电商数据平台建设情况参考调度系统,集群,元数据的管理,对外提供数据,团队情况5.中等规模电商数据平台实现方式参考开发与测试环境的实现,数据访问实现,提供数据的实现第二部分:Hadoop&Hive数据仓库技术第一章:电商全分布式开发环境搭建1.hadoop2.x全分布式搭建,三台虚拟机,系统
CentOS 6.5 32位 * 3;Hadoop-2.2.0-bin.tar.gz2.Hive的搭建(数据仓库,ETL过程),apache-hive-0.13.0-bin.tar.gz;mysql数据库创建第二章:Hadoop&Hive光速入门1.Hadoop概要2.HDFS介绍(HDFS可靠性介绍,Block解析)3.MapReduce介绍(MapReduce工作过程,JOB调度机制,内部任务优化机制,MapReduce错误处理机制)4.YARN介绍,YARN特性,YARN如何解决MapReduce1.0的问题5.Hadoop进程介绍(Namenode,Secondary
Namenode,DataNode,JobTracker,TaskTracker,ResourceManager,ResourceManager,NodeManager)6.Hadoop工作过程(详细内部工作过程,读取文件过程,写入文件过程)7.HDFS终端命令全解释,管理命令21个,文件操作命令30个8.常用配置参数详细解析,core-site.xml,hdfs-site.xml,hive-site.xml,mapred-site.xml,yarn-site.xml真实环境配置Hive光速入门1.Hive介绍,Hive的helloword2.Hive的部件:用户接口,元数据存储,执行部件,HDFS存储3.Hive的常用进程与服务:Service
List: beeline cli help hiveserver2 hiveserver hwi jar lineage metastore metatool orcfiledump rcfilecat4.Metastore的三种连接模式5.Hive和普通关系数据库比较6.Hive的cli与Commands7.Hive常用配置参数详细解析hive-site.xml第三章:HiveSQL语言全解释1.Hive数据类型2.数据定义语句DDL3.数据操纵语句DML4.数据查询,分组,去重,关联,等5.函数UDF,UDAF,UDTF第四章:Hive内部运行机制1.Hive内部存储格式2.MapReduce执行过程概览3.HiveSQL的join与group
by的实现过程3.Hive的执行生命周期七大步骤:CliDriver进行交互模式,读取命令processLine进行分割处理,ProcessCmd判断为操作系统命令进行相应处理,CommandProcess判断为Hive设置语句进行相应处理,如果判断为调用Driver处理,获取执行成功或者失败的结果,执行中间文件与临时文件清理4.Hive架构与执行流程分析:Parser
Driver,Semantic AnalyzerLogical
Plan Gen,Logical OptimizerPhysical
Plan Gen,Physical Optimizer5.通过Explain得到执行计划来观察Hive行为6.Hive源码导读第五章:HiveSQL优化1.小文件问题及其解决方案:小文件是如何产生的,有什么影响,在源头上控制小文件,小文件解决的3个办法2.优化方法之选择最佳实现流程/最优模型设计:最佳实现流程方案举例,平级数量或者金额的汇总最优模型3.优化方法之解决数据倾斜问题:实际数据倾斜问题举例与解决方案4.优化方法之减少与增加map/reduce的个数:map数是如何决定的,reduce是如何决定的,如何减少与增加map/reduce的个数,哪些场景需要减少与增加map/reduce的个数5.优化方法之并行或者共享输入:脚本内并行与脚本外并行,共享输入举例6.Hadoop的MAP数计算方法7.Hadoop的REDUCE数计算方法第三部分:电商核心业务知识详解第一章:订单商品模块1.订单表和商品表业务知识:订单主表,订单商品表,订单详细信息表,购物车表,商品信息表2.构建数据仓库DM层订单宽表,订单商品宽表,订单指标表,商品信息汇总表3.计算关于订单和商品的常见指标:最后一次移动端购买时间,近30天购买金额,客单价等5.关于商品的常用指标信息及其计算方法和每个字段的由来,哪些地方可能会用到及其业务含义解析6.数据开发的方法与流程,订单宽表,订单商品,订单指标表,商品信息汇总表程序编写第二章:客户模块1.客户表的业务知识:每个字段的由来,哪些地方可能会用到及其业务含义解析2.关于用户的营销类指标参考信息及其计算方法3.用户营销参考信息程序编写第三章:活动模块1.活动与订单关系的业务知识:每个字段的由来,哪些地方可能会用到及其业务含义解析2.关于活动类常用指标参考信息及其计算方法3.活动与订单指标指标表程序编写第四章:流量模块1.营销关注的流量业务知识:营销常用PV,UV和字段说明及其业务含义解析2.关于流量的常计算指标说明及其计算方法3.最后一次访问信息表,第一次访问信息表,访问次数表,访问明细表程序编写第五章:电商用户画像项目1.用户画像简介2.用户画像模型创建3.构建电商用户画像模型4.用户画像模型详细分析5.用户画像模型表落地
打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮