- 课程概览
- 授课讲师
- 课程大纲
- 实验列表
- 课程概览
- 授课讲师
- 课程大纲
- 实验列表
在今天的数字时代,数据已成为企业和组织中最宝贵的资产之一。为了有效地管理和分析这些海量数据,分布式计算和存储系统已经变得至关重要。本课程将带领同学深入探讨 Hadoop 及其生态圈,这一强大的开源工具集,旨在处理大规模数据处理和分析的挑战。
课程概览
第一部分:Hadoop 基础
首先,我们将介绍 Hadoop 分布式文件系统(HDFS)。HDFS 允许您在大规模集群上存储数据,确保高可用性和容错性。您将了解如何配置、管理和操作 HDFS,以便为大规模数据存储提供坚实的基础。
接着,我们将深入研究 MapReduce 分布式计算框架。MapReduce 是一种用于处理分布式数据的编程模型,它使我们能够轻松地处理大规模数据集,进行复杂的数据转换和分析。
第二部分:分布式协调与辅助系统
在本课程的下一部分,我们将介绍 ZooKeeper 分布式协调服务。ZooKeeper 提供了一种可靠的方式来协调分布式系统中的各个组件,确保它们能够协同工作。您将学会如何配置和使用 ZooKeeper 来管理分布式应用程序的状态和配置信息。
接下来,我们将研究 Hadoop 的生态圈中的一些关键辅助系统,包括:
-
Hive: Hive 是一个数据仓库工具,它允许您使用 SQL 类似的语言来查询和分析存储在 Hadoop 中的数据。您将学会如何创建表、编写查询,并将 Hive 与其他 Hadoop 组件集成。
-
HBase: HBase 是一个分布式、高性能的 NoSQL 数据库,专为处理大规模数据集设计。您将了解如何在 HBase 中存储和检索数据,并了解其在实时数据处理中的应用。
-
Flume 和 Sqoop: Flume 用于可靠地收集、汇总和移动大规模数据,而 Sqoop 则用于将数据传输到和从关系型数据库中。这两个工具对于将外部数据引入 Hadoop 生态系统或将数据导出到其他系统都非常有用。
通过本课程,您将获得深入了解 Hadoop 及其生态圈的能力,掌握分布式存储、计算和协调的关键概念,以及如何应用这些技能来解决实际的大数据挑战。无论您是数据工程师、数据科学家还是 IT 专业人士,都将受益于这门课程,因为它将为您提供处理和分析大规模数据的强大工具和技术。希望您享受学习的过程!
课程大纲
- 第1章 初识Hadoop
-
    第1节 大数据简介
-
    第2节 大数据技术核心需求
-
    第3节 Hadoop简介
-
    第4节 离线数据分析流程介绍
-
    第5节 大数据学习流程
- 第2章搭建Hadoop集群
-
    第1节 安装准备
-
    第2节 Linux基本命令
-
    第3节 Hadoop集群搭建
-
    第4节 Hadoop集群测试
- 第3章HDFS分布式文件系统
-
    第1节 HDFS的简介
-
    第2节 HDFS的架构和原理
-
    第3节 HDFS的Shell命令
-
    第4节 Java程序操作HDFS
- 第4章MapReduce分布式计算框架
-
    第1节 认识MapReduce
-
    第2节 MapReduce作业解析
-
    第3节 MapReduce工作原理
-
    第4节 Shuffle阶段
- 第5章Zookeeper分布式协调服务
-
    第1节 认识Zookeeper
-
    第2节 Zookeeper的安装和常用命令
-
    第3节 Zookeeper客户端编程
-
    第4节 Zookeeper典型应用场景
- 第6章Hadoop2.0新特性
-
    第1节 Hadoop2.0新特性
-
    第2节 Yarn资源管理框架
-
    第3节 Hadoop的HA模式
- 第7章Hive
-
    第1节 数据仓库简介
-
    第2节 认识Hive
-
    第3节 Hive安装
-
    第4节 Hive数据类型
-
    第5节 Hive数据库操作
-
    第6节 Hive表
-
    第7节 Hive表的查询
-
    第8节 Hive函数
-
    第9节 Hive 案例分析
- 第8章HBase分布式存储系统
-
    第1节 认识HBase
-
    第2节 HBase表设计
-
    第3节 HBase安装
-
    第4节 HBase Shell常用操作
- 第9章 Flume
-
    第1节 认识Flume
-
    第2节 Flume基本组件
-
    第3节 Flume安装
-
    第4节 Flume数据流模型
-
    第5节 采集案例
- 第10章Sqoop
-
    第1节 认识Sqoop
-
    第2节 Sqoop安装
-
    第3节 Sqoop命令
-
    第4节 Sqoop数据导入
-
    第5节 Sqoop数据导出
-
    第6节 Sqoop job
实验列表
- 实验名称Linux基本命令
- 实验描述在本练习中,您将练习使用Linux的基本命令
- 实验名称HDFS基本命令
- 实验描述在本练习中,您将练习使用HDFS、Hadoop分布式文件系统。您将使用HDFS命令行工具来操纵HDFS中的文件
- 实验名称Java程序操作HDFS
- 实验描述在本练习中,您将练习使用Java程序操作HDFS
- 实验名称MapReduce执行单词统计
- 实验描述在本练习中,您将练习使用MapReduce执行单词统计。
- 实验名称Zookeeper基础命令
- 实验描述在本练习中,您将练习使用Zookeeper基础命令
- 实验名称Zookeeper客户端编程
- 实验描述在本练习中,您将练习使用idea操作zookeeper
- 实验名称Hive数据库操作
- 实验描述在本练习中,您将练习使用Hive操作数据库
- 实验名称Hive表操作
- 实验描述在本练习中,您将练习使用Hive操作Hive表
- 实验名称Hive表查询
- 实验描述在本练习中,您将练习使用Hive操作Hive表查询
- 实验名称Hive函数
- 实验描述在本练习中,您将练习使用Hive操作Hive函数
- 实验名称Hive案例
- 实验描述在本练习中,您将练习使用idea操作hive
- 实验名称Hbase的命令操作
- 实验描述在本练习中,您将练习使用Hbase命令行操作Hbase
- 实验名称Flume采集目录数据
- 实验描述在本练习中,您将练习使用Flume采集目录数据,数据保存到hdfs
- 实验名称Sqoop命令
- 实验描述在本练习中,您将练习使用Sqoop命令
- 实验名称Sqoop数据导入
- 实验描述在本练习中,您将练习使用选择mysql中数据库的表,导入相对应的hdfs的表中
- 实验名称Sqoop数据导出
- 实验描述在本练习中,您将练习使用Sqoop的hdfs数据导出 mysql
- 实验名称Sqoop Job操作
- 实验描述在本练习中,您将练习使用Sqoop Job
节数 | 上课时间 | 星期一 | 星期二 | 星期三 | 星期四 | 星期五 | 星期六 | 星期天 |
---|---|---|---|---|---|---|---|---|
第1节 | 08:00 - 08:40 | |||||||
第2节 | 09:00 - 09:40 | |||||||
第3节 | 10:00 - 10:40 | |||||||
第4节 | 11:00 - 11:40 | |||||||
第5节 | 14:00 - 14:40 | |||||||
第6节 | 15:00 - 15:40 | |||||||
第7节 | 16:00 - 16:40 | |||||||
第8节 | 17:00 - 17:40 |
天数 | 上课日期 | 上课时间 | 内容 |
---|
相关课件 更多
-
pptx
第10章 Sqoop
大小:487.55KB
2023-11-06
-
pptx
第9章 Flume
大小:316.23KB
2023-11-06
-
pptx
第8章 HBase分布式存储系统
大小:538.4KB
2023-11-06
-
pptx
第7章 Hive
大小:1.21MB
2023-11-06
-
pptx
第6章 Hadoop2.0新特性
大小:1.1MB
2023-11-06
-
pptx
第5章 Zookeeper分布式协调服务
大小:366.55KB
2023-11-06