集团站切换校区

数据分析师:Pig、Hive和Impala

课时总数:24课时

课程介绍


  通过Cloudera公司的ApacheHadoop培训将您的知识提升到一个新的水平。


  Cloudera大学提供的为期4天的数据分析培训课程专注于ApachePig、Hive和ClouderaImpala,将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。Cloudera为数据专业人员提供了基于SQL和其它熟悉的脚本编程语言的工具,用来访问、操作、转换和分析复杂数据集。

  学习掌握现代大数据分析工具

    学员在本课程中将学习掌握以下现代大数据分析工具:

      ●  ApacheImpala(孵化项目)作为一个SQL运行环境提供对Hadoop里的数据进行即时交互式分析的能力。

      ●  ApacheHive为数据分析师、数据库管理员以及其他非Java编程人员提供了一个类-SQL的查询语言HiveQL来分析处理Hadoop数据。

      ●  ApachePig提供脚本编程工具来分析处理Hadoop数据。

  一.培训内容

   通过讲师在课堂上的讲解,以及实操练习,学员将熟悉Hadoop生态系统,学习主题包括:

      ●  使用Pig,Hive及Impala获取、存储及分析数据。

      ●  使用Hadoop工具执行基本的ETL工作(抽取-extract,转换-transform和加载-load)。

      ●  使用Pig、Hive及Impala改善典型分析任务的效率。

      ●  关联不同及丰富的数据源以获取全面和真实的商业价值。

      ●  对数据集进行交互式和复杂查询。

  二.培训对象及学员基础

  本课程是专为数据分析师、商业智能专家、开发人员、系统架构师和数据库管理员开发的。培训学员不需要具备ApacheHadoop知识。

      ●  需具备一定的SQL知识水平。

      ●  基本熟悉Linux命令行。

      ●  培训学员至少熟悉一种脚本语言知识(例如,Bash脚本编程、Perl、Python和Ruby)将会更有帮助,但不是必需的。

  三.认证

  结束本课程培训后,我们建议学员准备并注册参加ClouderaCCA数据分析师认证考试。通过并获得该证书是向公司及客户证明个人在Hadoop数据分析领域的技术和专长的有力依据。

  四.课程大纲

    1.  Hadoop基础知识

      ●  Hadoop动机

      ●  Hadoop概览

      ●  数据存储:HDFS

      ●  分布式数据处理:YARN、MapReduce和Spark

      ●  数据处理与分析:Pig、Hive和Impala

      ●  数据集成:Sqoop

      ●  其它的Hadoop数据工具

      ●  练习分析场景说明

    2.  Pig简介

      ●  Pig是什么

      ●  Pig的特点

      ●  Pig使用案例

      ●  与Pig的交互

    3.  Pig基本数据分析

      ●  PigLatin语法

      ●  加载数据

      ●  简单数据类型

      ●  字段定义

      ●  数据输出

      ●  架构查看

      ●  数据筛选和排序

      ●  常用函数

    4.  使用Pig处理复杂的数据

      ●  数据存储格式

      ●  复合/嵌套数据类型

      ●  数据分组

      ●  复杂数据内置函数

      ●  遍历分组数据

    5.  Pig多数据集操作

      ●  数据集合并技术

      ●  在Pig中联接数据集

      ●  集合运算

      ●  拆分数据集

    6.  Pig故障诊断和性能优化

      ●  Pig故障排除

      ●  日志

      ●  使用Hadoop的WebUI

      ●  数据采样及调试

      ●  性能概述

      ●  了解执行计划

      ●  提高Pig作业性能的技巧

    7.  Hive和Impala简介

      ●  什么是Hive

      ●  什么是Impala

      ●  为什么使用Hive和Impala

      ●  架构和数据存储

      ●  Hive及Impala与传统数据库的比较

      ●  Hive使用案例

    8.  使用Hive和Impala进行数据查询

      ●  数据库和表

      ●  基本的Hive和Impala查询语言语法

      ●  数据类型

      ●  使用Hue来执行查询

      ●  使用Beeline(HiveShell)

      ●  使用ImpalaShell

    9.  Hive及Impala数据管理

      ●  数据存储

      ●  创建数据库和表

      ●  加载数据

      ●  修改数据库和表

      ●  使用视图简化查询

      ●  存储查询结果

    10.  数据存储和性能

      ●  对表进行分区

      ●  分区表的数据加载

      ●  何时使用分区

      ●  文件格式的选取

      ●  使用Avro及Parquet文件格式

    11.  使用Hive和Impala进行关系数据分析

      ●  连接数据集

      ●  常见的内置函数

      ●  聚合和窗口函数

    12.  复杂数据类型

      ●  在Hive里使用复杂数据

      ●  在Impala里使用复杂数据

    13.  使用Hive及Impala分析文本数据

      ●  在Hive及Impala里使用正则表达式

      ●  在Hive里通过SerDe加载处理文本

      ●  情感分析及n-gram

    14.  Hive优化

      ●  了解查询性能

      ●  Bucketing(分桶)

      ●  索引数据

      ●  HiveonSpark

    15.  Impala优化

      ●  Impala如何执行查询

      ●  改善Impala性能

    16.  扩展Hive及Impala

      ●  使用SerDe加载特殊格式文件

      ●  通过定制脚本来转换数据

      ●  用户自定义函数

      ●  参数化查询

    17.  选择最佳工具

      ●  比较Pig、Hive、Impala和关系数据库该选择哪一个

    18.  总结


  Cloudera大数据课程体系



免费申请体验 立即咨询
在线咨询 ×

您好,请问有什么可以帮您?我们将竭诚提供最优质服务!