数据分析师培训:Pig、Hive和Impala,大数据培训-腾科IT教育集团

课程大纲
学员评价（0）

　　通过Cloudera公司的ApacheHadoop培训将您的知识提升到一个新的水平。

　　Cloudera大学提供的为期4天的数据分析培训课程专注于ApachePig、Hive和ClouderaImpala，将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。Cloudera为数据专业人员提供了基于SQL和其它熟悉的脚本编程语言的工具，用来访问、操作、转换和分析复杂数据集。

　　学习掌握现代大数据分析工具

　   学员在本课程中将学习掌握以下现代大数据分析工具：

　　    ● ApacheImpala（孵化项目）作为一个SQL运行环境提供对Hadoop里的数据进行即时交互式分析的能力。

　　    ● ApacheHive为数据分析师、数据库管理员以及其他非Java编程人员提供了一个类-SQL的查询语言HiveQL来分析处理Hadoop数据。

　　    ● ApachePig提供脚本编程工具来分析处理Hadoop数据。

　　一．培训内容

　　通过讲师在课堂上的讲解，以及实操练习，学员将熟悉Hadoop生态系统，学习主题包括：

　　    ● 使用Pig，Hive及Impala获取、存储及分析数据。

　　    ● 使用Hadoop工具执行基本的ETL工作（抽取－extract，转换－transform和加载－load）。

　　    ● 使用Pig、Hive及Impala改善典型分析任务的效率。

　　    ● 关联不同及丰富的数据源以获取全面和真实的商业价值。

　　    ● 对数据集进行交互式和复杂查询。

　　二．培训对象及学员基础

　　本课程是专为数据分析师、商业智能专家、开发人员、系统架构师和数据库管理员开发的。培训学员不需要具备ApacheHadoop知识。

　　    ● 需具备一定的SQL知识水平。

　　    ● 基本熟悉Linux命令行。

　　    ● 培训学员至少熟悉一种脚本语言知识（例如，Bash脚本编程、Perl、Python和Ruby）将会更有帮助，但不是必需的。

　　三．认证

　　结束本课程培训后，我们建议学员准备并注册参加ClouderaCCA数据分析师认证考试。通过并获得该证书是向公司及客户证明个人在Hadoop数据分析领域的技术和专长的有力依据。

　　四．课程大纲

　　 1. Hadoop基础知识

　　    ● Hadoop动机

　　    ● Hadoop概览

　　    ● 数据存储：HDFS

　　    ● 分布式数据处理：YARN、MapReduce和Spark

　　    ● 数据处理与分析：Pig、Hive和Impala

　　    ● 数据集成：Sqoop

　　    ● 其它的Hadoop数据工具

　　    ● 练习分析场景说明

　　 2. Pig简介

　　    ● Pig是什么

　　    ● Pig的特点

　　    ● Pig使用案例

　　    ● 与Pig的交互

　　 3. Pig基本数据分析

　　    ● PigLatin语法

　　    ● 加载数据

　　    ● 简单数据类型

　　    ● 字段定义

　　    ● 数据输出

　　    ● 架构查看

　　    ● 数据筛选和排序

　　    ● 常用函数

　　 4. 使用Pig处理复杂的数据

　　    ● 数据存储格式

　　    ● 复合/嵌套数据类型

　　    ● 数据分组

　　    ● 复杂数据内置函数

　　    ● 遍历分组数据

　　 5. Pig多数据集操作

　　    ● 数据集合并技术

　　    ● 在Pig中联接数据集

　　    ● 集合运算

　　    ● 拆分数据集

　　 6. Pig故障诊断和性能优化

　　    ● Pig故障排除

　　    ● 日志

　　    ● 使用Hadoop的WebUI

　　    ● 数据采样及调试

　　    ● 性能概述

　　    ● 了解执行计划

　　    ● 提高Pig作业性能的技巧

　　 7. Hive和Impala简介

　　    ● 什么是Hive

　　    ● 什么是Impala

　　    ● 为什么使用Hive和Impala

　　    ● 架构和数据存储

　　    ● Hive及Impala与传统数据库的比较

　　    ● Hive使用案例

　　 8. 使用Hive和Impala进行数据查询

　　    ● 数据库和表

　　    ● 基本的Hive和Impala查询语言语法

　　    ● 数据类型

　　    ● 使用Hue来执行查询

　　    ● 使用Beeline（HiveShell）

　　    ● 使用ImpalaShell

　　 9. Hive及Impala数据管理

　　    ● 数据存储

　　    ● 创建数据库和表

　　    ● 加载数据

　　    ● 修改数据库和表

　　    ● 使用视图简化查询

　　    ● 存储查询结果

　　 10. 数据存储和性能

　　    ● 对表进行分区

　　    ● 分区表的数据加载

　　    ● 何时使用分区

　　    ● 文件格式的选取

　　    ● 使用Avro及Parquet文件格式

　　 11. 使用Hive和Impala进行关系数据分析

　　    ● 连接数据集

　　    ● 常见的内置函数

　　    ● 聚合和窗口函数

　　 12. 复杂数据类型

　　    ● 在Hive里使用复杂数据

　　    ● 在Impala里使用复杂数据

　　 13. 使用Hive及Impala分析文本数据

　　    ● 在Hive及Impala里使用正则表达式

　　    ● 在Hive里通过SerDe加载处理文本

　　    ● 情感分析及n-gram

　　 14. Hive优化

　　    ● 了解查询性能

　　    ● Bucketing（分桶）

　　    ● 索引数据

　　    ● HiveonSpark

　　 15. Impala优化

　　    ● Impala如何执行查询

　　    ● 改善Impala性能

　　 16. 扩展Hive及Impala

　　    ● 使用SerDe加载特殊格式文件

　　    ● 通过定制脚本来转换数据

　　    ● 用户自定义函数

　　    ● 参数化查询

　　 17. 选择好工具

　　    ● 比较Pig、Hive、Impala和关系数据库该选择哪一个

　　 18. 总结

　　Cloudera大数据课程体系

十五年老品牌

微信咨询：togogoi 咨询电话：18922156670 咨询网站客服：在线客服

网络技术

系统运维

数据库

云计算

安全

大数据

人工智能

项目管理

软件开发

其他

优选课程

高校合作

企业定制

考试中心

学习资源

关于我们

Cloudera--数据分析师：Pig、Hive和Impala

关于我们

联系我们

最新文章

客服热线

全国校区

关注我们