博睿谷·博睿慕课-专业IT培训与认证课程订阅服务|华为认证红帽认证cisp认证

通过HCNA-Big Data认证，将证明您已经系统掌握常用且重要的大数据组件技术原理与架构，能够运用华为大数据解决方案FusionInsight HD进行海量数据的导入和导出、分布式文件系统HDFS的基础操作、分布式数据库HBase客户端及表操作、分布式数据仓库Hive的常用HQL语句查询，以及了解典型场景的综合应用

课程概览

内容包括但不限于：大数据行业与技术趋势介绍；HDFS分布式文件系统、MapReduce分布式离线批处理计算引擎和Yarn资源协调、Spark2x基于内存的分布式计算、HBase分布式NoSQL数据库、Hive分布式数据仓库、Streaming分布式流计算引擎、Loader数据转换、Flume海量日志聚合、Kafka分布式消息订阅系统、ZooKeeper集群分布式协调服务等11个常用且重要的大数据组件技术原理与架构，华为大数据解决方案产品FusionInsight HD及成功案例介绍；基于独立大数据组件的实战演练以及大数据综合应用实战。

授课讲师

伍伟邦

伍老师有10年的Java开发、大数据开发工作经验，精通Java、Scala、js、Python、sql等编程语言。熟练运用Java，运用各级框架的组合开发。并能熟悉基于Oracle、MySQL等多种数据库编程，有千万级的电信大数据处理经验；曾带领团队主导研发CRM大型项目。熟悉linux/unix平台；熟悉redis、solr、nginx、apache集群、负载均衡等等技术解决系统多并发的问题。精通Hadoop、hive、Spark等大数据组件，及华为大数据平台与数据挖掘知识体系。项目经验： 1、广东电信营业厅效能评估子系统 2、广东电信渠道绩效业务支撑系统 3、某银行定期存款业务预测项目 4、某电商日志数据消费行为分析项目 5、AFC地铁售票机管理系统 6、广东移动销售绩效评估系统

课程大纲

第1章大数据行业与技术趋势
第1节大数据时代
第2节大数据的应用领域-华为大数据解决方案

第2章HDFS技术原理
第1节 HDFS概述及应用场景-HDFS系统架构
第2节关键特性介绍

第3章MapReduce和YARN技术原理
第1节 MapReduce和YARN基本介绍、功能与架构
第2节 YARN的资源管理和任务调度与增强特性

第4章Spark2x技术原理
第1节 Spark概述、原理与架构
第2节 Spark原理与架构、在FusionInsight中的集成情况

第5章HBase技术原理
第1节 HBase基本介绍
第2节 HBase功能与架构
第3节 HBase关键流程、HBase华为增强特性

第6章Hive技术原理
第1节 Hive概述、功能与架构
第2节 Hive功能与架构、基本操作

第7章Streaming技术原理
第1节 Streaming简介与系统架构
第2节关键特性介绍与StreamCQL介绍

第8章Flink技术原理
第1节 Flink概述、原理与技术架构
第2节 Flink原理与技术架构、在FusionInsight HD中的集成情况

第9章Loader技术原理
第1节 Loader简介与作业管理

第10章Flume技术原理
第1节 Flume简介、架构、关键特性及应用举例

第11章Kafka技术原理
第1节 Kafka简介、架构与功能
第2节 Kafka架构与功能、关键流程

第12章ZooKeeper集群分布式协调服务
第1节 ZooKeeper简介-与组件的关系

第13章FusionInsight HD解决方案介绍
第1节 FusionInsight概述与特性介绍
第2节 FusionInsight HD 成功案例

实验列表

实验名称01_使用命令行访问HDFS
实验描述在本练习中，您将练习使用HDFS、Hadoop分布式文件系统。您将使用HDFS命令行工具来操纵HDFS中的文件

实验名称02_使用Apache Spark探索DataFrames
实验描述在本练习中，您将使用Spark shell处理DataFrames。您将从在浏览器中查看和书签Spark文档开始。然后启动Spark shell并将一个简单的JSON文件读入DataFrame。

实验名称03_使用DataFrames模式
实验描述在本练习中，您将使用DataFrames处理结构化帐户和移动设备数据

实验名称04_用DateFrame查询分析数据
实验描述在本练习中，您将使用DataFrame查询分析帐户和移动设备数据。

实验名称05_使用RDD
实验描述在这个练习中，您将使用Spark shell来处理RDD。

实验名称06_使用RDD转换数据
实验描述在本练习中，您将转换RDD中的数据。

实验名称08_用SQL查询表和视图
实验描述在本练习中，您将使用Catalog API来探索Hive表并创建通过执行SQL查询来进行dataframe。使用Catalog API在默认的Hive数据库中列出表，并查看accounts表的模式。对accounts表执行查询，并检查结果 DataFrames。基于accountdevice CSV文件创建一个临时视图，并使用它将该表与accounts表连接起来。

实验名称09_使用Scala中的数据集
实验描述在本练习中，您将使用web日志数据探索数据集。创建一个帐户ID/IP地址对的RDD，然后基于该RDD创建一个新的产品数据集(case类对象)。比较类型化和非类型化转换的结果，以更好地理解DataFrames和数据集之间的关系。注意:这些练习只在Scala中进行，因为数据集不在Python中定义。

实验名称10_探索查询执行
实验描述在这个练习中，您将探索Spark如何执行RDD和DataFrame/数据集的查询。首先，您将使用Spark shell和Spark应用程序UI。然后您将探索Catalyst是如何执行DataFrame和Dataset查询

实验名称11_持久化数据
实验描述在这个练习中，您将探索DataFrame持久化。

实验名称15_使用Apache Sqoop导入数据到HDFS
实验描述在本练习中，您将使用Sqoop将MySQL中的表导入HDFS。

实验名称16_使用Apache Sqoop导出数据到MySQL
实验描述在本练习中，您将使用Sqoop将MySQL中的表导入HDFS。

实验名称13_收集Web服务器使用Apache Flume的日志
实验描述在本练习中，您将运行一个Flume代理将web日志数据从本地目录摄取到HDFS。 Apache web服务器日志通常存储在运行服务器的本地机器上的文件中。在本练习中，您将通过将提供的web日志文件放入本地spool目录中来模拟Apache服务器，然后使用Flume来收集数据。在使用假脱机目录源之前，本地目录和HDFS目录都必须存在。

实验名称12_制作和使用Apache Kafka消息
实验描述在本练习中，您将使用Kafka的命令行工具创建一个Kafka主题。您还将使用命令行生成器和使用者客户机来发布和读取消息。

实验名称14_从Flume发送消息给Kafka
实验描述在本练习中，您将在网关节点上运行Flume代理，它将从本地spool目录中获取web日志，并将每一行作为消息发送给Kafka主题。 Flume代理被配置为向前面创建的weblog主题发送消息。

节数	上课时间	星期一	星期二	星期三	星期四	星期五	星期六	星期天
第1节	08:00 - 08:40
第2节	09:00 - 09:40
第3节	10:00 - 10:40
第4节	11:00 - 11:40
第5节	14:00 - 14:40
第6节	15:00 - 15:40
第7节	16:00 - 16:40
第8节	17:00 - 17:40

天数	上课日期	上课时间	内容

HCIA-Big Data华为大数据-复制修改

课程概览

授课讲师

课程大纲

实验列表

相关课件更多

HCIA-Big Data华为大数据-复制修改

课程概览

授课讲师

课程大纲

实验列表

相关课件 更多

相关课程

相关课件更多