Cloudera--Spark和Hadoop上的数据科学
在线班远程课程、云实验平台、在线答疑
面授班讲师面授、真机实验、解答
服务(在线、面授均享) 1、面授+远程+录播 2、24小时远程真机练习 3、行业讲师亲临授课 4、每班一名班主任督学 5、一年半免费重听学习
通过Cloudera公司提供的数据科学培训和认证,将您的知识提升到一个新的水平。
数据科学家帮助政府、企事业单位及科研院校创建大数据时代的新型信息平台,用于对海量数据进行深度挖掘、从中提取有用的信息,用于回答以前无法解决甚至是无法想象的问题。
学员将学习数据科学家是如何使用Hadoop和Spark技术来帮助企业改进现有产品、开发新产品新应用,留住用户并开拓市场,降低成本,提高收益,发现和带来新的商业机会。
Cloudera培训中心为期3天的数据科学家课程帮助学员理解什么是数据科学家,他们解决什么样的问题,以及使用何种工具和新技术。通过课堂模拟,学员学会如何运用数据科学的方法来应对并解决现实中来自不同行业的挑战,为以后胜任数据科学家的角色做好准备。
一. 培训内容
通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:
- 如何获取、清洗和综合来自不同数据源的数据,为分析提供统一的视图。
- 了解用于从海量数据探索潜在商业价值的统计方法。
- 掌握何时将Hadoop streaming 和Apache Spark 嵌入搭建数据科学所需的数据产品流水线中去。
- 了解数据科学项目所需的机器学习技术。
- 如何使用SparkMLlib实现和管理系统,如何设置和评估结果。
- 了解将新开发的分析项目部署到大规模产品环境中可能碰到的扩展能力问题及如何规避。
二. 培训对象及学员基础
本课程面向软件开发人员、大数据工程师以及数据分析人员。学员需掌握使用Linux环境的基本技能,建议具备Hadoop方面的基本知识或经验:HDFS,MapReduce,HadoopStreaming,以及ApacheHive等,并能熟练使用至少一种脚本编程语言,建议Python,或者熟悉其他语言譬如Perl或Ruby。
三. 数据科学家认证
在完成本课程的学习后,我们鼓励培训学员继续深造并注册参加Cloudera认证:数据科学家(CCP:DS)考试。获得该认证可以让学员脱颖而出;它可以帮助学员成为该领域的精英,并向雇主和客户提供与您的专业知识相关的确凿证据。
四. 课程大纲
1. 引言
- 课程简介
- Cloudera简介
- 课程安排
- 介绍
2. 数据科学概述
- 什么是数据科学?
- 数据科学日益增长的需求
- 数据科学家的角色
3. 使用案例
- 金融行业
- 零售行业
- 广告行业
- 国防和情报行业
- 电信及公用事业行业
- 医疗健康及制药行业
4. 项目生命周期
- 项目生命周期的流程步骤
- 实操练习应用场景说明
5. 数据采集
- 从哪里获取数据
- 数据采集技术
6. 评估输入数据
- 数据格式
- 数据容量
- 数据质量
7. 数据转换
- 文件格式转换
- 连接数据集
- 数据匿名化
8. 数据分析和统计方法
- 统计与概率之间的关系
- 描述性统计
- 推理性统计
- 向量和矩阵
9. 机器学习的基础知识
- 概述
- 机器学习的3C分类
- 数据和算法的重要性
- 聚焦:朴素贝叶斯分类器
10. 系统概述
- 什么是系统
- 协同过滤的类型
- 系统的局限性
- 基本概念
11. Apache Spark和MLlib简介
- 什么是Apache Spark ?
- 和MapReduce的比较
- Apache Spark基础知识
- Spark的MLlib Package
12. 通过MLlib实现系统
- 针对潜在因子系统的ALS方法概述
- ALS系统超参数
- 在MLlib中构建系统
- 调整超参数
- 加权
13. 实验和评估
- 设计有效的实验
- 进行有效的实验
- 系统的用户界面
14. 生产部署和超越
- 生产部署
- 提升数据产品扩展能力技巧和技术
- 结果汇总和可视化
- 如何改进
- 系统未来展望
15. 总结
Cloudera大数据课程体系