ClouderaApacheHadoop培训及认证帮助您进阶大数据知识及技能。
Cloudera培训中心为期4天的Hadoop管理员培训将帮助学员综合理解并掌握通过ClouderaManager对Hadoop集群的运维管理,包括:安装,配置、负载平衡及性能调优等。通过该培训,Hadoop系统管理员将能准备好应对实际运维中遇到的挑战。
一.培训内容
● 通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:
●ClouderaManager管理集群的特性,诸如日志汇总、配置管理、资源管理、报告、报警及服务管理等。
●YARN、MapReduce、Spark及HDFS的工作原理。
●如何为你的集群选取合适的硬件和架构。
●如何将Hadoop集群和企业已有的系统进行无缝集成。
●如何使用Flume进行实时数据采集以及如何使用Sqoop在RDBMS和Hadoop集群之间进行数据导入导出。
●如何配置公平调度器为Hadoop上的多用户提供服务。
●产品环境中Hadoop集群的运维实践。
●Hadoop集群排错、诊断问题和性能调优。
二.培训对象及学员基础
面向系统管理员和IT经理,需具备Linux经验,无需ApacheHadoop基础。
三.认证
结束本课程培训后,我们建议学员准备并注册参加CCAHadoop管理员考试。通过并获取该证书是向公司及客户证明个人在Hadoop领域的技术和专长的有力依据。
四.课程大纲
1. ApacheHadoop介绍
●Hadoop的创建动机
●基本概念
●Hadoop核心部件
2. Hadoop集群安装
●集群管理方案
●ClouderaManager特性
●Clouderamanager安装
●Hadoop(CDH)安装
3. Hadoop分布式文件系统(HDFS)
●HDFS特性
●读写文件
●NameNode内存考虑
●HDFS安全简介
●HDFSWebUI
●使用HDFSShell
4. YARN上的MapReduce和Spark
●计算平台在Hadoop里扮演的角色
●YARN:集群资源管理器
●MapReduce概念
●ApacheSpark概念
●Yarn上的计算平台
●通过WebUI及Shell观察YARN应用
●YARN应用运行日志
5. Hadoop配置及服务运行日志
●ClouderaManager配置管理机制
●定位配置参数及进行配置变更
●管理角色实例及添加服务
●配置HDFS服务
●配置Hadoop服务运行日志
●配置YARN服务
6. HDFS数据导入
●使用Flume从外部数据源实时
●导入数据
●使用Sqoop从关系数据库导入数据
●REST接口
●导入数据的实践
7. Hadoop集群规划
●规划考虑因素
●硬件选择
●虚拟化选项*
●网络因素
●节点配置
8. Hive,Impala及Pig安装及配置
●Hive
●Impala
●Pig
9. Hadoop客户端及Hue
●什么是Hadoop客户端
●安装及配置Hadoop客户端
●安装及配置Hue
●使用Hue进行身份验证及
10. 集群配置
●配置参数
●Hadoop端口配置
●HDFS机柜感知配置
●HDFS高可靠性配置
11. Hadoop安全
●Hadoop安全的重要性
●Hadoop安全性概念
●Kerberos简介
●使用Kerberos保护Hadoop集群
●其他安全概念
12. 资源管理
●使用静态服务池配置Linuxcgroup
●公平调度器
●配置动态资源池
●YARN内存及CPU设置
●Impala查询调度
13. 集群维护
●检查HDFS状态
●集群间复制数据
●添加/移除集群节点
●集群数据负载平衡
●目录快照
●集群升级
14. 集群监控及排错
●ClouderaManager监控特性
●监控Hadoop集群
●Hadoop集群排错
●常见配置不当问题
15. 结论
课程 | 课时 | 课程概述 | 培训对象/学员基础 |
开发人员培养路径 | |||
Spark及Hadoop开发员 | 4天 | 了解Apache Spark的基础知识及其与Hadoop整体生态系统的集成方式。本课程将重温HDFS的基础内容,学习如何使用Sqoop/Flume摄取数据,利用Spark处理分布式数据,学习在Impala和Hive上数据建模,及在数据存储方面佳实践。 | 面向具有Scala和Python编程经验的开发人员。熟悉Linux命令行。适合于不熟悉或初次接触Hadoop的人员参加 |
Apache HBase | 3天 | 学习如何运用HBase作为分布式数据存储实现低延迟查询和高度可扩展性的数据吞吐量,涵盖schema设计、应用程序编写、配置和维护。 | 面向计划使用HBase的开发人员和管理员。具有数据库和数据建模经验更佳(非必须)。具备Java相关知识更佳,Hadoop相关知识不作要求,但接受过相关培训则为参加本课程提供良好的基础。 |
Cloudera检索 | 3天 | 索引Hadoop数据和强有力的实时查询功能,并且可将Cloudera检索与外部应用程序进行集成。了解如何将全文本、交互式检索和可扩展的、灵活的索引导入Hadoop和企业数据中心(EDH)中。 | 面向熟悉Hadoop基本知识和Java、C、C++、Perl或Python编程经验的开发人员和数据工程师。培训对象应熟悉Linux命令行,但不要求具备Solr,HBase或SQL使用经验。 |
管理员培养路径 | |||
Apache Hadoop管理员 | 4天 | 从安装及配置、负载均衡及调整,以及诊断和解决部署问题等各方面了解Hadoop系统管理员的概念和实践。 | 面向需要建立或维护Hadoop集群的管理员。培训对象要求具备Linux基本知识。Hadoop相关知识不作要求。 |
Apache HBase | 3天 | 学习如何运用HBase作为分布式数据存储实现低延迟查询和高度可扩展性的数据吞吐量,涵盖schema设计、应用程序编写、配置和维护。 | 面向计划使用HBase的开发人员和管理员。具有数据库和数据建模经验更佳(非必须)。具备Java相关知识更佳,Hadoop相关知识不作要求,但接受过相关培训则为参加本课程提供良好的基础。 |
数据分析师培养路径 | |||
数据分析师:Pig、Hive和Impala | 4天 | 了解Apache Pig、Apache Hive及Apache Impala(孵化中)如何通过筛选、连接以及用户自定义函数进行数据转换和数据分析。 | 面向意欲使用SQL、脚本编程和基本Linux功能来操作Hadoop数据的分析师、BI、架构师和管理员。培训对象不要求具有Hadoop知识。 |
Spark和Hadoop上的数据科学 | 3天 | 了解数据科学家的工作内容、需要解决的问题以及其处理现实问题时应用的方法,以获得来自不同行业数据的业务价值。本课程中学员将学习并实现一个系统。 | 面向具备Hadoop基础知识(HDFS、MapReduce、Hadoop Streaming、Hive)的工程师、数据分析师、统计人员。培训对象具备熟练的脚本语言编程能力:Python是选;熟悉Perl或Ruby亦可。 |
以上就是大数据培训课程的全部内容介绍,如需了解更多的大数据培训班、课程、价格、试听等信息,也可以点击进入 大数据 相关频道,定制专属课程,开始您的学习之旅。