- 课程概览
- 授课讲师
- 课程大纲
- 实验列表
- 课程概览
- 授课讲师
- 课程大纲
- 实验列表
本项目的数据为2020年2月份天猫某店铺的订单成交数据,共28010条。课程将从实际生产开发环境出发,以Hadoop+Spark作为大数据分析平台、以促进产品销售为目的对项目数据进行分析操作,通过数据分析,进而明确销售现状,挖掘潜在规律,发现存在问题,提出可行性建议,进而为优化经营起到助力作用。采用灵活学习模式。
课程概览
第一章介绍Linux环境的安装与搭建,包括操作系统CentOS的安装,JDK环境的安装,MariaDB的安装。
第二章介绍Hadoop集群的搭建,并初步了解Hadoop的使用。
第三章介绍Hadoop的HDFS分布式文件系统,介绍Maven的使用。
第四章介绍MapReduce分布式计算框架的使用。
第五章介绍Spark的安装,以及讲解Scala编程语言。
第六章介绍Spark的使用,包括Spark编程和SparkSQL编程。
第七章介绍本课程项目会用到的PythonWeb前端框架、Web应用程序框架,并把本课程的数据可视化项目初步搭建起来。
第八章结合我们前面学过的所有内容,编写SparkSQL程序做数据处理,将结果保存在数据库,最后利用Python做数据可视化。
授课讲师
专业成就: 拥有华为双IE专家资格认证,在云计算与云服务领域具有专业权威。 技术文章《云上主机安全设计》获得业界认可,阅读量达1700次。 教学风格: 授课方式通俗易懂,强调互动,营造生动有趣的课堂氛围。 通过课后讨论,加深学生对技术的理解,提升学习热情。 学术地位: 作为高校客座教授,享有学术界和业界的广泛认可。 擅长技术领域: 精通云计算架构设计、云服务管理与优化。 擅长云主机安全策略规划与实施。 熟练掌握虚拟化技术、容器化部署和自动化运维。
课程大纲
- 第1章Linux环境搭建
-
    第1节 Linux环境的安装
-
    第2节 Linux环境中的JDK安装
-
    第3节 MariaDB的安装
- 第2章Hadoop集群搭建
-
    第1节 Hadoop安装前的准备
-
    第2节 Hadoop的安装
-
    第3节 Hadoop的使用
- 第3章HDFS分布式文件系统
-
    第1节 HDFS的概念
-
    第2节 Maven的安装与使用
-
    第3节 HDFS的API操作
- 第4章MapReduce分布式计算框架
-
    第1节 MapReduce编程实践
- 第5章Scala语言基础
-
    第1节 Spark的安装
-
    第2节 Scala编程基础
- 第6章Spark大数据处理框架
-
    第1节 Spark编程基础
-
    第2节 Spark编程进阶
-
    第3节 SparkSQL编程
-
    第4节 SparkSQL编程进阶
- 第7章PythonWeb框架
-
    第1节 ECharts的使用
-
    第2节 Python连接数据库
-
    第3节 PythonWeb项目搭建
- 第8章天猫订单数据分析
-
    第1节 Spark数据分析
-
    第2节 数据可视化
实验列表
- 实验名称Linux安装
- 实验描述了解Linux基础知识,安装并克隆Linux操作系统,配置SSH服务,使用MobaXtem连接工具,为后续的实验做准备。
- 实验名称Linux命令行
- 实验描述Linux常用命令的练习,掌握Linux基本命令的使用。
- 实验名称Linux VIM编辑器
- 实验描述了解vim编辑器的使用,为后续的实验打基础。
- 实验名称Linux用户管理
- 实验描述了解Linux的用户类型和用户管理机制,用命令行管理用户,熟悉添加用户、更改用户、删除用户等操作,为后续的实验打基础。
- 实验名称Linux安装Java环境
- 实验描述在Linux操作系统中安装Java环境,为后续实验做准备。
- 实验名称Linux安装MariaDB环境
- 实验描述在Linux操作系统环境中安装数据库MariaDB,为后续实验做准备。
- 实验名称Hadoop的前期准备
- 实验描述在正式安装Hadoop软件之前,还需要做一下安装前准备,包括修改主机名、同步三台机子的环境变量、关闭防火墙、配置免密登录。
- 实验名称Hadoop安装
- 实验描述在Linux环境中安装Hadoop
- 实验名称Hadoop的使用
- 实验描述检测hadoop安装配置是否成功,初步了解Hadoop的使用。
- 实验名称HDFS常用操作
- 实验描述在本练习中,您将练习使用HDFS、Hadoop分布式文件系统。您将使用HDFS命令行工具来操纵HDFS中的文件
- 实验名称Maven的安装
- 实验描述在Windows操作系统上安装项目管理工具Maven,并在idea上集成Maven环境,为后续的实验做准备。 注意,这个实验文档是在Windows操作系统中安装Maven,由于这里是Linux实验环境,已经为大家安装好了idea和Maven,安装目录分别为:/home/idea、/home/maven
- 实验名称HDFS的API操作
- 实验描述使用Java操作HDFS分布式文件系统,实现数据的增删改查。
- 实验名称MapReduce词频统计
- 实验描述使用MapReduce分布式计算框架,编写MapReduce程序,实现词频统计。
- 实验名称Spark的安装
- 实验描述安装Spark,为后续的数据分析做准备。
- 实验名称Scala安装
- 实验描述安装Scala,为后续编写Scala程序要准备。
- 实验名称第一个Scala程序
- 实验描述Idea集成Scala环境,在idea上编写Scala程序。
- 实验名称Spark RDD常用操作
- 实验描述了解分布式数据集RDD,熟悉RDD相关操作。
- 实验名称Spark词频统计程序
- 实验描述用Spark程序实现词频统计。
- 实验名称词频统计开发-idea集成环境
- 实验描述在idea集成环境中开发spark程序,实现词频统计。
- 实验名称SparkSQL编程
- 实验描述编写SparkSQL程序,读取HDFS的数据,做成结构化数据并做进一步处理。
- 实验名称Spark读写Mysql操作-idea集成环境
- 实验描述在idea集成环境中编写spark程序,对数据库中的数据进行读写操作。
- 实验名称PythonWeb前端UI框架
- 实验描述把PythonWeb前端UI框架搭建起来,为后续做数据分析做准备。
- 实验名称PythonWeb-Flask框架
- 实验描述了解PythonWeb-Flask框架,利用Web应用程序框架搭建项目。
- 实验名称PythonWeb连接Mysql
- 实验描述用PythonWeb连接Mysql,实现对MySQL数据的增删改查
- 实验名称PythonWeb项目搭建
- 实验描述搭建PythonWeb项目,后续会用该项目做数据的可视化展示。
- 实验名称天猫订单分析
- 实验描述编写Spark程序,对天猫订单数据做数据分析。
- 实验名称数据结果可视化
- 实验描述现在我们已经完成了spark的数据分析,数据结果保存在数据库,用python做数据可视化。
节数 | 上课时间 | 星期一 | 星期二 | 星期三 | 星期四 | 星期五 | 星期六 | 星期天 |
---|---|---|---|---|---|---|---|---|
第1节 | 08:00 - 08:40 | |||||||
第2节 | 09:00 - 09:40 | |||||||
第3节 | 10:00 - 10:40 | |||||||
第4节 | 11:00 - 11:40 | |||||||
第5节 | 14:00 - 14:40 | |||||||
第6节 | 15:00 - 15:40 | |||||||
第7节 | 16:00 - 16:40 | |||||||
第8节 | 17:00 - 17:40 |
天数 | 上课日期 | 上课时间 | 内容 |
---|
相关课件 更多
-
docx
1.Linux基础知识
大小:3.7MB
2023-08-28
-
docx
2.Hadoop集群搭建
大小:344.17KB
2023-08-28
-
docx
3.Maven的概述
大小:3.65MB
2023-08-28
-
docx
4.MapReduce分布式计算框架
大小:1.82MB
2023-08-28
-
docx
5.Scala语言基础
大小:1.5MB
2023-08-28
-
docx
6.Spark大数据处理框架
大小:2.29MB
2023-08-28