集团站切换校区

Spark和Hadoop上的数据科学

课时总数:18课时

课程介绍

      通过Cloudera公司提供的数据科学培训和认证,将您的知识提升到一个新的水平。

 数据科学家帮助政府、企事业单位及科研院校创建大数据时代的新型信息平台,用于对海量数据进行深度挖掘、从中提取有用的信息,用于回答以前无法解决甚至是无法想象的问题。

学员将学习数据科学家是如何使用Hadoop和Spark技术来帮助企业改进现有产品、开发新产品新应用,留住用户并开拓市场,降低成本,提高收益,发现和带来新的商业机会。

Cloudera大学为期3天的数据科学家课程帮助学员理解什么是数据科学家,他们解决什么样的问题,以及使用何种高效工具和最新技术。通过课堂模拟,学员学会如何运用数据科学的方法来应对并解决现实中来自不同行业的挑战,为以后胜任数据科学家的角色做好准备。

 

一. 培训内容

       通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:

  •  如何获取、清洗和综合来自不同数据源的数据,为分析提供统一全面的视图。
  •  了解用于从海量数据探索潜在商业价值的统计方法。
  •  掌握何时将Hadoop streaming 和Apache Spark 嵌入搭建数据科学所需的数据产品流水线中去。
  •  了解数据科学项目所需的机器学习技术。
  •  如何使用SparkMLlib实现和管理推荐系统,如何设置和评估结果。
  •  了解将新开发的分析项目部署到大规模产品环境中可能碰到的扩展能力问题及如何规避。


 

二. 培训对象及学员基础

本课程面向软件开发人员、大数据工程师以及高级数据分析人员。学员需掌握使用Linux环境的基本技能,最好具备Hadoop方面的基本知识或经验:HDFS,MapReduce,HadoopStreaming,以及ApacheHive等,并能熟练使用至少一种脚本编程语言,建议Python,或者熟悉其他语言譬如Perl或Ruby。

 

三. 数据科学家认证

在完成本课程的学习后,我们鼓励培训学员继续深造并注册参加Cloudera认证专家:数据科学家(CCP:DS)考试。获得该认证可以让学员脱颖而出;它可以帮助学员成为该领域的精英,并向雇主和客户提供与您的专业知识相关的确凿证据。

 

四. 课程大纲

1. 引言

  •  课程简介
  •  Cloudera简介
  •  课程安排
  •  介绍


2. 数据科学概述

  •  什么是数据科学?
  •  数据科学日益增长的需求
  •  数据科学家的角色


3. 使用案例

  •  金融行业
  •  零售行业
  •  广告行业
  •  国防和情报行业
  •  电信及公用事业行业
  •  医疗健康及制药行业


4. 项目生命周期

  •  项目生命周期的流程步骤
  •  实操练习应用场景说明


5. 数据采集

  •  从哪里获取数据
  •  数据采集技术


6. 评估输入数据

  •  数据格式
  •  数据容量
  •  数据质量


7. 数据转换

  •  文件格式转换
  •  连接数据集
  •  数据匿名化


8. 数据分析和统计方法

  •  统计与概率之间的关系
  •  描述性统计
  •  推理性统计
  •  向量和矩阵


9. 机器学习的基础知识

  •  概述
  •  机器学习的3C分类
  •  数据和算法的重要性
  •  聚焦:朴素贝叶斯分类器


10. 推荐系统概述

  •  什么是推荐系统
  •  协同过滤的类型
  •  推荐系统的局限性
  •  基本概念


11. Apache Spark和MLlib简介

  •  什么是Apache Spark ?
  •  MapReduce的比较
  •  Apache Spark基础知识
  •  Spark的MLlib Package


12. 通过MLlib实现推荐系统

  •  针对潜在因子推荐系统的ALS方法概述
  •  ALS推荐系统超参数
  •  MLlib中构建推荐系统
  •  调整超参数
  •  加权


13. 实验和评估

  •  设计有效的实验
  •  进行有效的实验
  •  推荐系统的用户界面


14. 生产部署和超越

  •  生产部署
  •  提升数据产品扩展能力技巧和技术
  •  结果汇总和可视化
  •  如何改进
  •  推荐系统未来展望

15. 总结

Cloudera大数据课程体系



免费申请体验 立即咨询
在线咨询 ×

您好,请问有什么可以帮您?我们将竭诚提供最优质服务!