博睿谷·博睿慕课-专业IT培训与认证课程订阅服务|华为认证红帽认证cisp认证

滴滴拥有超过4.5亿用户，在中国400多个城市开展服务，每天的订单量高达2500W，每天要处理的数据量4500TB。仅仅在北京，工作日的早高峰一分钟内就会有超过1600人在使用滴滴打车。通过对这些数据进行分析，了解到不同区域、不同时段运营情况。

课程概览

我们的目标是分析用户打车的订单，进行各类的指标计算（指标，例如：订单的总数、订单的总支付金额等等）。我们之前学习过了HDFS以及Hive，所以，我们可以将数据上传到HDFS保存下来，每天都可以进行上传，HDFS可以保存海量的数据。同时，我们学习过了Hive，可以将HDFS中的数据文件，对应到Hive的表中。但需要考虑一个问题，就是业务系统的日志数据不一定是能够直接进行分析的，例如：我们需要分析不同时段的订单占比，凌晨有多少订单、早上有多少订单、上午有多少订单等。但是，我们发现，原始的日志文件中，并没有区分该订单的是哪个时间段的字段。所以，我们需要对日志文件的原始数据进行预处理，才能进行分析。

我们会有这么几类数据要考虑：

原始日志数据（业务系统中保存的日志文件数据）
预处理后的数据
分析结果数据

这些数据我们都通过Hive来进行处理，因为Hive可以将数据映射为一张张的表，然后就可以通过编写HQL来处理数据了，简单、快捷、高效。为了区分以上这些数据，我们将这些数据对应的表分别保存在不同的数据库中。

授课讲师

曾炜财

熟悉Hadoop，Spark，Redis，Zookeeper，Kafka，ElasticSearch，Sqoop，Flume，Flink等大数据组件；熟悉Mysql，Hbase等数据库编程；熟悉使用Hive 数据仓库；熟悉使用maven,spring,springmvc，hibernate,struts,mybatis等开源框架；并能熟练运用各级框架的组合开发。教学特色：良好课堂组织能力，时刻关注每一位学生，充分调动注意力，通过设计新颖有趣方式来激发学习欲望，教学过程注重基础知识掌握，以及对学生解决问题的能力培养，教学环节层层递进，实现课堂高效。

课程大纲

第1章项目业务背景介绍
第1节项目业务背景介绍

视频名称:1.滴滴数仓-日志分析.wmv

第2章构建数据仓库
第1节数仓分层建库

视频名称:2.滴滴数仓-数仓分层建库.wmv

第3章创建表
第1节 ods建表

第4章添加分区
第1节 ods分区

第5章数据上传HDFS
第1节 ods上传数据

第6章数据预处理
第1节数据处理及查询
第2节 order数据处理并写入宽表

第7章订单分析
第1节总订单笔数分析
第2节预约订单/非预约订单占比分析
第3节不同时段订单占比分析
第4节不同地域订单占比分析（省份）
第5节不同年龄段订单占比分析

第8章sqoop数据导出
第1节 sqoop数据导出

第9章Superset对分析指标可视化
第1节 Superset对分析指标可视化

实验列表

实验名称构建数据仓库
实验描述为了方便组织、管理上述的三类数据，我们将数仓分成不同的层，简单来说，就是分别将三类不同的数据保存在Hive的不同数据库中。

实验名称创建表
实验描述根据数据创建表

实验名称添加分区
实验描述大规模数据的处理，必须要构建分区。我们此处的需求每天都会进行数据分析，采用的是T+1的模式。就是假设今天是2020-01-01，那么1月1日的分析结果在第二天才能看到，也就是2020-01-02查看到上一天的数据分析结果。此处，我们采用最常用的分区方式，使用日期来进行分区。

实验名称HDFS文件上传
实验描述我们已经在Hive中建立好了数据库、表、以及分区。接下来，我们需要将打车的日志数据上传到HDFS分布式文件系统中。然后，我们就可以开始进行数据处理、分析了。

实验名称数据处理
实验描述现在数据已经准备好了，接下来我们需要对ods层中的数据进行预处理。数据预处理是数据仓库开发中的一个重要环节。目的主要是让预处理后的数据更容易进行数据分析，并且能够将一些非法的数据处理掉，避免影响实际的统计结果。

实验名称订单分析
实验描述数据分析好了，但要知道，我们处理大规模数据，每次处理都需要占用较长时间，所以，我们可以将计算好的数据，直接保存下来。将来，我们就可以快速查询数据结果了。所以，我们可以提前在app层创建好表。

实验名称sqoop导出数据
实验描述在分析完核心指标之后，我们需要将指标数据导出到mysql数据库中，便于后续的应用，比如结果指标的可视化。

实验名称Superset对分析指标可视化
实验描述Superset是一款开源的现代化企业级BI。它是目前开源的数据分析和可视化工具中比较好用的，功能简单但可以满足我们对数据的基本需求，支持多种数据源，图表类型多，易维护，易进行二次开发。特点： 1. 丰富的数据可视化集 2. 易于使用的界面，用于浏览和可视化数据 3. 创建和共享仪表板 4. 可提供身份验证

节数	上课时间	星期一	星期二	星期三	星期四	星期五	星期六	星期天
第1节	08:00 - 08:40
第2节	09:00 - 09:40
第3节	10:00 - 10:40
第4节	11:00 - 11:40
第5节	14:00 - 14:40
第6节	15:00 - 15:40
第7节	16:00 - 16:40
第8节	17:00 - 17:40

天数	上课日期	上课时间	内容

hive滴滴数仓实战方案

课程概览

授课讲师

课程大纲

实验列表

相关课件更多

hive滴滴数仓实战方案

课程概览

授课讲师

课程大纲

实验列表

相关课件 更多

相关课程

相关课件更多