- 课程概览
- 授课讲师
- 课程大纲
- 实验列表
- 课程概览
- 授课讲师
- 课程大纲
- 实验列表
通过HCNA-Big Data认证,将证明您已经系统掌握常用且重要的大数据组件技术原理与架构,能够运用华为大数据解决方案FusionInsight HD进行海量数据的导入和导出、分布式文件系统HDFS的基础操作、分布式数据库HBase客户端及表操作、分布式数据仓库Hive的常用HQL语句查询,以及了解典型场景的综合应用
课程概览
授课讲师
伍老师有10年的Java开发、大数据开发工作经验,精通Java、Scala、js、Python、sql等编程语言。熟练运用Java,运用各级框架的组合开发。并能熟悉基于Oracle、MySQL等多种数据库编程,有千万级的电信大数据处理经验;曾带领团队主导研发CRM大型项目。熟悉linux/unix平台;熟悉redis、solr、nginx、apache集群、负载均衡等等技术解决系统多并发的问题。精通Hadoop、hive、Spark等大数据组件,及华为大数据平台与数据挖掘知识体系。 项目经验: 1、广东电信营业厅效能评估子系统 2、广东电信渠道绩效业务支撑系统 3、某银行定期存款业务预测项目 4、某电商日志数据消费行为分析项目 5、AFC地铁售票机管理系统 6、广东移动销售绩效评估系统
课程大纲
- 第1章大数据行业与技术趋势
-
    第1节 大数据时代
-
    第2节 大数据的应用领域-华为大数据解决方案
- 第2章HDFS技术原理
-
    第1节 HDFS概述及应用场景-HDFS系统架构
-
    第2节 关键特性介绍
- 第3章MapReduce和YARN技术原理
-
    第1节 MapReduce和YARN基本介绍、功能与架构
-
    第2节 YARN的资源管理和任务调度与增强特性
- 第4章Spark2x技术原理
-
    第1节 Spark概述、原理与架构
-
    第2节 Spark原理与架构、在FusionInsight中的集成情况
- 第5章HBase技术原理
-
    第1节 HBase基本介绍
-
    第2节 HBase功能与架构
-
    第3节 HBase关键流程、HBase华为增强特性
- 第6章Hive技术原理
-
    第1节 Hive概述、功能与架构
-
    第2节 Hive功能与架构、基本操作
- 第7章Streaming技术原理
-
    第1节 Streaming简介与系统架构
-
    第2节 关键特性介绍与StreamCQL介绍
- 第8章Flink技术原理
-
    第1节 Flink概述、原理与技术架构
-
    第2节 Flink原理与技术架构、在FusionInsight HD中的集成情况
- 第9章Loader技术原理
-
    第1节 Loader简介与作业管理
- 第10章Flume技术原理
-
    第1节 Flume简介、架构、关键特性及应用举例
- 第11章Kafka技术原理
-
    第1节 Kafka简介、架构与功能
-
    第2节 Kafka架构与功能、关键流程
- 第12章ZooKeeper集群分布式协调服务
-
    第1节 ZooKeeper简介-与组件的关系
- 第13章FusionInsight HD解决方案介绍
-
    第1节 FusionInsight概述与特性介绍
-
    第2节 FusionInsight HD 成功案例
实验列表
- 实验名称01_使用命令行访问HDFS
- 实验描述在本练习中,您将练习使用HDFS、Hadoop分布式文件系统。您将使用HDFS命令行工具来操纵HDFS中的文件
- 实验名称02_使用Apache Spark探索DataFrames
- 实验描述在本练习中,您将使用Spark shell处理DataFrames。 您将从在浏览器中查看和书签Spark文档开始。然后启动Spark shell并将一个简单的JSON文件读入DataFrame。
- 实验名称03_使用DataFrames模式
- 实验描述在本练习中,您将使用DataFrames处理结构化帐户和移动设备数据
- 实验名称04_用DateFrame查询分析数据
- 实验描述在本练习中,您将使用DataFrame查询分析帐户和移动设备数据。
- 实验名称05_使用RDD
- 实验描述在这个练习中,您将使用Spark shell来处理RDD。
- 实验名称06_使用RDD转换数据
- 实验描述在本练习中,您将转换RDD中的数据。
- 实验名称08_用SQL查询表和视图
- 实验描述在本练习中,您将使用Catalog API来探索Hive表并创建通过执行SQL查询来进行dataframe。 使用Catalog API在默认的Hive数据库中列出表,并查看accounts表的模式。对accounts表执行查询,并检查结果 DataFrames。基于accountdevice CSV文件创建一个临时视图,并使用它将该表与accounts表连接起来。
- 实验名称09_使用Scala中的数据集
- 实验描述在本练习中,您将使用web日志数据探索数据集。 创建一个帐户ID/IP地址对的RDD,然后基于该RDD创建一个新的产品数据集(case类对象)。比较类型化和非类型化转换的结果,以更好地理解DataFrames和数据集之间的关系。 注意:这些练习只在Scala中进行,因为数据集不在Python中定义。
- 实验名称10_探索查询执行
- 实验描述在这个练习中,您将探索Spark如何执行RDD和DataFrame/数据集的查询。 首先,您将使用Spark shell和Spark应用程序UI。然后您将探索Catalyst是如何执行DataFrame和Dataset查询
- 实验名称11_持久化数据
- 实验描述在这个练习中,您将探索DataFrame持久化。
- 实验名称15_使用Apache Sqoop导入数据到HDFS
- 实验描述在本练习中,您将使用Sqoop将MySQL中的表导入HDFS。
- 实验名称16_使用Apache Sqoop导出数据到MySQL
- 实验描述在本练习中,您将使用Sqoop将MySQL中的表导入HDFS。
- 实验名称13_收集Web服务器使用Apache Flume的日志
- 实验描述在本练习中,您将运行一个Flume代理将web日志数据从本地目录摄取到HDFS。 Apache web服务器日志通常存储在运行服务器的本地机器上的文件中。在本练习中,您将通过将提供的web日志文件放入本地spool目录中来模拟Apache服务器,然后使用Flume来收集数据。 在使用假脱机目录源之前,本地目录和HDFS目录都必须存在。
- 实验名称12_制作和使用Apache Kafka消息
- 实验描述在本练习中,您将使用Kafka的命令行工具创建一个Kafka主题。您还将使用命令行生成器和使用者客户机来发布和读取消息。
- 实验名称14_从Flume发送消息给Kafka
- 实验描述在本练习中,您将在网关节点上运行Flume代理,它将从本地spool目录中获取web日志,并将每一行作为消息发送给Kafka主题。 Flume代理被配置为向前面创建的weblog主题发送消息。
节数 | 上课时间 | 星期一 | 星期二 | 星期三 | 星期四 | 星期五 | 星期六 | 星期天 |
---|---|---|---|---|---|---|---|---|
第1节 | 08:00 - 08:40 | |||||||
第2节 | 09:00 - 09:40 | |||||||
第3节 | 10:00 - 10:40 | |||||||
第4节 | 11:00 - 11:40 | |||||||
第5节 | 14:00 - 14:40 | |||||||
第6节 | 15:00 - 15:40 | |||||||
第7节 | 16:00 - 16:40 | |||||||
第8节 | 17:00 - 17:40 |
天数 | 上课日期 | 上课时间 | 内容 |
---|
相关课件 更多
-
pdf
HCIA-Big_Data培训教材V2.0
大小:11.83MB
2020-04-27
-
pdf
HCNA-BigData 2.0 实验手册
大小:3.19MB
2020-04-27
-
chm
FusionInsight HD V100R002C70SPC200 产品文档 02
大小:48.48MB
2020-04-27