课程目录:Cloudera数据分析师培训
4401 人关注
(78637/99817)
课程大纲:

          Cloudera数据分析师培训

 

 

 

1.Hadoop基础知识 ●Hadoop动机 ●Hadoop概览 ●数据存储:HDFS ●分布式数据处理:
YARN、MapReduce和Spark ●数据处理与分析:Pig、Hive和Impala ●数据集成:Sqoop ●其它的Hadoop数据工具 ●练习分析场景说明
2.Pig简介 ●Pig是什么 ●Pig的特点 ●Pig使用案例 ●与Pig的交互
3.Pig基本数据分 ●PigLatin语法 ●加载数据 ●简单数据类型 ●字段定义 ●数据输出 ●架构查看 ●数据筛选和排序 ●常用函数
4.使用Pig处理复杂的数据 ●数据存储格式 ●复合/嵌套数据类型 ●数据分组 ●复杂数据内置函数 ●遍历分组数据
5.Pig多数据集操作 ●数据集合并技术 ●在Pig中联接数据集 ●集合运算 ●拆分数据集
6.Pig故障诊断和性能优化 ●Pig故障排除 ●日志 ●使用Hadoop的WebUI ●数据采样及调试 ●性能概述 ●了解执行计划 ●提高Pig作业性能的技巧
7.Hive和Impala简介 ●什么是Hive ●什么是Impala ●为什么使用Hive和Impala ●架构和数据存储 ●Hive及Impala与传统数据库的比较 ●Hive使用案例
8.使用Hive和Impala进行数据查询 ●数据库和表 ●基本的Hive和Impala查询语言语法 ●
数据类型 ●使用Hue来执行查询 ●使用Beeline(HiveShell) ●使用ImpalaShell
9.Hive及Impala数据管理 ●数据存储 ●创建数据库和表 ●加载数据 ●修改数据库和表 ●
使用视图简化查询 ●存储查询结果10.数据存储和性能 ●对表进行分区 ●分区表的数据加载 ●
何时使用分区 ●文件格式的选取 ●使用Avro及Parquet文件格式
11.使用Hive和Impala进行关系数据分析 ●连接数据集 ●常见的内置函数 ●聚合和窗口函数
12.复杂数据类型 ●在Hive里使用复杂数据 ●在Impala里使用复杂数据
13.使用Hive及Impala分析文本数据 ●在Hive及Impala里使用正则表达式 ●在Hive里通过SerDe加载处理文本 ●情感分析及n-gram
14.Hive优化 ●了解查询性能 ●Bucketing(分桶) ●索引数据 ●HiveonSpark
15.Impala优化 ●Impala如何执行查询 ●改善Impala性能
16.扩展Hive及Impala ●使用SerDe加载特殊格式文件 ●通过定制脚本来转换数据 ●用户自定义函数 ●参数化查询
17.选择好工具 ●比较Pig、Hive、Impala和关系数据库该选择哪一个