培训首页  >  大数据培训课程  > 上海大数据ApacheHadoop培训
上海大数据ApacheHadoop培训
  • 课程价格 电话咨询
  • 课程等级入门级
  • 培训周期1年
  • 学校地址上海市徐汇区文定路200号盛源恒华大厦803
  • 在线客服 立即咨询
上海大数据ApacheHadoop培训
上海大数据ApacheHadoop培训

ClouderaApacheHadoop培训及认证帮助您进阶大数据知识及技能。


Cloudera培训中心为期4天的Hadoop管理员培训将帮助学员综合理解并掌握通过ClouderaManager对Hadoop集群的运维管理,包括:安装,配置、负载平衡及性能调优等。通过该培训,Hadoop系统管理员将能准备好应对实际运维中遇到的挑战。

一.培训内容

● 通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:

ClouderaManager管理集群的特性,诸如日志汇总、配置管理、资源管理、报告、报警及服务管理等。

YARN、MapReduce、Spark及HDFS的工作原理。

如何为你的集群选取合适的硬件和架构。

如何将Hadoop集群和企业已有的系统进行无缝集成。

如何使用Flume进行实时数据采集以及如何使用Sqoop在RDBMS和Hadoop集群之间进行数据导入导出。

如何配置公平调度器为Hadoop上的多用户提供服务。

产品环境中Hadoop集群的运维实践。

Hadoop集群排错、诊断问题和性能调优。

二.培训对象及学员基础

面向系统管理员和IT经理,需具备Linux经验,无需ApacheHadoop基础。

三.认证

结束本课程培训后,我们建议学员准备并注册参加CCAHadoop管理员考试。通过并获取该证书是向公司及客户证明个人在Hadoop领域的技术和专长的有力依据。

四.课程大纲

1. ApacheHadoop介绍

Hadoop的创建动机

基本概念

Hadoop核心部件

2. Hadoop集群安装

集群管理方案

ClouderaManager特性

Clouderamanager安装

Hadoop(CDH)安装

3. Hadoop分布式文件系统(HDFS)

HDFS特性

读写文件

NameNode内存考虑

HDFS安全简介

HDFSWebUI

使用HDFSShell

4. YARN上的MapReduce和Spark

计算平台在Hadoop里扮演的角色

YARN:集群资源管理器

MapReduce概念

ApacheSpark概念

Yarn上的计算平台

通过WebUI及Shell观察YARN应用

YARN应用运行日志

5. Hadoop配置及服务运行日志

ClouderaManager配置管理机制

定位配置参数及进行配置变更

管理角色实例及添加服务

配置HDFS服务

配置Hadoop服务运行日志

配置YARN服务

6. HDFS数据导入

使用Flume从外部数据源实时

导入数据

使用Sqoop从关系数据库导入数据

REST接口

导入数据的实践

7. Hadoop集群规划

规划考虑因素

硬件选择

虚拟化选项*

网络因素

节点配置

8. Hive,Impala及Pig安装及配置

Hive

Impala

Pig

9. Hadoop客户端及Hue

什么是Hadoop客户端

安装及配置Hadoop客户端

安装及配置Hue

使用Hue进行身份验证及

10. 集群配置

配置参数

Hadoop端口配置

HDFS机柜感知配置

HDFS高可靠性配置

11. Hadoop安全

Hadoop安全的重要性

Hadoop安全性概念

Kerberos简介

使用Kerberos保护Hadoop集群

其他安全概念

12. 资源管理

使用静态服务池配置Linuxcgroup

公平调度器

配置动态资源池

YARN内存及CPU设置

Impala查询调度

13. 集群维护

检查HDFS状态

集群间复制数据

添加/移除集群节点

集群数据负载平衡

目录快照

集群升级

14. 集群监控及排错

ClouderaManager监控特性

监控Hadoop集群

Hadoop集群排错

常见配置不当问题

15. 结论


课程
课时
课程概述

培训对象/学员基础

开发人员培养路径

Spark及Hadoop开发员

4天

了解Apache Spark的基础知识及其与Hadoop整体生态系统的集成方式。本课程将重温HDFS的基础内容,学习如何使用Sqoop/Flume摄取数据,利用Spark处理分布式数据,学习在Impala和Hive上数据建模,及在数据存储方面佳实践。

面向具有Scala和Python编程经验的开发人员。熟悉Linux命令行。适合于不熟悉或初次接触Hadoop的人员参加

Apache HBase

3天

学习如何运用HBase作为分布式数据存储实现低延迟查询和高度可扩展性的数据吞吐量,涵盖schema设计、应用程序编写、配置和维护。

面向计划使用HBase的开发人员和管理员。具有数据库和数据建模经验更佳(非必须)。具备Java相关知识更佳,Hadoop相关知识不作要求,但接受过相关培训则为参加本课程提供良好的基础。

Cloudera检索

3天

索引Hadoop数据和强有力的实时查询功能,并且可将Cloudera检索与外部应用程序进行集成。了解如何将全文本、交互式检索和可扩展的、灵活的索引导入Hadoop和企业数据中心(EDH)中。

面向熟悉Hadoop基本知识和Java、C、C++、Perl或Python编程经验的开发人员和数据工程师。培训对象应熟悉Linux命令行,但不要求具备Solr,HBase或SQL使用经验。

管理员培养路径

Apache Hadoop管理员4天

从安装及配置、负载均衡及调整,以及诊断和解决部署问题等各方面了解Hadoop系统管理员的概念和实践。

面向需要建立或维护Hadoop集群的管理员。培训对象要求具备Linux基本知识。Hadoop相关知识不作要求。

Apache HBase3天

学习如何运用HBase作为分布式数据存储实现低延迟查询和高度可扩展性的数据吞吐量,涵盖schema设计、应用程序编写、配置和维护。

面向计划使用HBase的开发人员和管理员。具有数据库和数据建模经验更佳(非必须)。具备Java相关知识更佳,Hadoop相关知识不作要求,但接受过相关培训则为参加本课程提供良好的基础。

数据分析师培养路径

数据分析师:Pig、Hive和Impala

4天

了解Apache Pig、Apache Hive及Apache Impala(孵化中)如何通过筛选、连接以及用户自定义函数进行数据转换和数据分析。

面向意欲使用SQL、脚本编程和基本Linux功能来操作Hadoop数据的分析师、BI、架构师和管理员。培训对象不要求具有Hadoop知识。

Spark和Hadoop上的数据科学

3天

了解数据科学家的工作内容、需要解决的问题以及其处理现实问题时应用的方法,以获得来自不同行业数据的业务价值。本课程中学员将学习并实现一个系统。

面向具备Hadoop基础知识(HDFS、MapReduce、Hadoop Streaming、Hive)的工程师、数据分析师、统计人员。培训对象具备熟练的脚本语言编程能力:Python是选;熟悉Perl或Ruby亦可。








以上就是大数据培训课程的全部内容介绍,如需了解更多的大数据培训班、课程、价格、试听等信息,也可以点击进入 大数据 相关频道,定制专属课程,开始您的学习之旅。

课程内容以实际授课为准
  • 软件开发
  • 软件测试
  • 数据库
  • Web前端
  • 大数据
  • 人工智能
  • 零基础
  • 有HTML基础
  • 有PHP基础
  • 有C语言基础
  • 有JAVA基础
  • 其他计算机语言基础
  • 周末班
  • 全日制白班
  • 随到随学

网上报名