北京培训首页 > 北京培训课程 > 数据库工程师培训课程 > 北京零基础大数据开发就业培训班

北京零基础大数据开发就业培训班

课程级别入门级培训周期半年内
培训时间全日制

咨询电话 400-656-1390

微信咨询

微信扫二维码免费咨询

我们将给您发送更多独

家资料和课程视频！

课程说明

课程级别	入门级
培训周期	半年内
上课时间	全日制
上课地址	北京市昌平区回龙观育荣教育园区二层

授课对象

统招大专及以上学历，有一定的code能力、学习能力、良好的逻辑思维，热爱编程。

教程说明

1、人才稀缺未来3至5年，中国需要150万左右的大数据相关人才，目前大数据从业人数不足50万，市场需求远远得不到满足；
2、高薪纳贤：2018年大数据行业起薪突破20万每年，高出互联网普通技术开发人员134%，且人数扩大为2017年7.8倍；
3、行业需求：大数据对接金融、电商、医疗、新零售、物联网、工业、农业、交通和能源等行业，人才需求量持续扩大；
4、一将难求：前有万达集团60万聘请大数据人才，后有大数据专业毕业生20w就职，大数据人才“重金难觅”。

课程简介

【课程内容】

1、Java入门、Java基本语法、流程控制语句、数组、面向对象、常用类、集合、多线程、网络编程等；

2、MySQL数据库、JDBC、数据库连接池等；

3、HTML、CSS、JavaScript、JSP与Servlet、maven、S框架等；

4、Web实训项目、Linux实训项目、Hadoop实训项目等。

5、hadoop概述、hadoop服务器基础环境、zookeeper安装与使用、hadoop伪分布式环境、hadoop安装、hdfs分布式文件系统等。

6、hive介绍与安装、hive数据类型与基础语法、hive表操作、hive大数据查询等。

7、hbase概述、hbase安装、hbase原理、hbase的shell操作等。

8、oozie原理与安装、oozie任务调度、oozie的任务配置等。

9、flume概述与安装、flume应用、fume定制开发等。

【spark介绍】

1. rdd原理：

RDD设计背景、RDD概念、RDD转换、RDD行为、RDD血缘关系、RDD容错性、RDD内存使用、RDD缓存数据、RDD依赖关系、宽依赖、窄依赖、宽依赖与窄依赖的区别、RDD的阶段划分、RDD缓存、RDD数据倾斜解决、RDD优化

2. spark常用Transformations算子：

map、filter、flatMap、mapPartitions、mapPartitionsWithIndex、sample、union、intersection、distinct、groupByKey、reduceByKey、aggregateByKey、sortByKey、join、cogroup、cartesian、pipe、coalesce、repartition、repartitionAndSortWithinPartitions

3. spark常用Actions算子

reduce、collect、count、first、take、takeSample、takeOrdered、saveAsTextFile、saveAsSequenceFile、saveAsObjectFile、countByKey、foreach

4. spark-core

rdd常用操作、pairRdd常用操作、sparkconf配置对象、sparkcontext设置、spark-core的java版API、spark-core的scala版API、集合操作、cache函数、persist函数、unpersist函数、广播变量、累加器、spark编程wordCount、spark编程排序、spark编程二次排序、spark编程mapjoin、spark使用hadoop序列化方法、spark读写hive的ORC文件

5.spark-sql

hive与spark-sql对比、配置spark-sql使用hive元数据库、spark-sql在yarn上运行driver、spart-sql在yarn上运行thriftserver、beeline与thriftserver通信、缓存表、spark-jdbc编程、spark-sql读写json文件、spark-sql自定义schema、spark-sql对象化schema、spark-sql读写hive的orc格式文件、spark-sql的标准sql支持、spark-sql的hive sql支持、spark-sql使用JDBC访问mysql、dataFrame使用、dataSet使用、spark-sql与常用rdd的转换

6. spark-hbase

spark-hbase的java版API、spark-hbase的scala版API、spark写入hbase、spark批量写入hbase、spark中使用tableoutputformat多分区写入、spark的hadoopDataSet操作、spark批量读取hbase、spark使用filter过滤hbase数据、spark生成hbase的hfile文件、spark整合hbase的bulk load功能、spark-hbase集群运行调优

7. spark-streaming

流式计算的特点、spark-streaming的原理、spark-streaming的生态组件、storm与Spark Streming对比、spark-streaming的优缺点、spark-streaming的数据处理流程、spark-streaming的架构与抽象、spark-streaming的java版API、spark-streaming的scala版API、spark-streaming的DStream对象、DStream的Transformations操作、DStream的Output Operations操作、updateStateByKey原理与使用、DStream使用transform转换成RDD、windows函数原理、windows函数窗口间隔、windows滑动间隔、spark-streaming保存压缩文件、spark-streaming保存hive的ORC文件、spark-streaming数据导入到hbase、spark-streaming的socket模式、ncat工具的使用、spark-streaming的checkpoint原理、spark-streaming的文件模式、spark-streaming的kafka模式、spark-streaming编程在windows函数中使用updateStateByKey、spark-streaming编程使用历史数据中新值、spark-streaming编程使用checkpoint恢复历史数据、spark-streaming编程spark-streaming-kafka cogroup spark-streaming-file

8. spark调优

内存：对象头内存、String内存、集合内存、虚拟机垃圾回收原理、虚拟机垃圾回收调优、虚拟机对象内存空间分配、垃圾回收检测、优化executor内存比例
　　序列化：Java序列化机制、Kryo序列化机制、优化Kryo类库缓存大小、注册自定义类型、禁用Kryo序列化引用
　　数据结构：数组代替集合、字符串代替集合、JSON代替对象
　　持久化：持久化、Checkpoint冗余
　　并行度：算子并行度设置、conf默认并行度设置、cpu core与task并行度比例
　　共享数据：共享数据优点、共享数据代替外部变量、使用共享数据shuffle
　数据本地化：数据本地化性能影响、PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY、数据本地方调化方案
　　算子优化reduceByKey优点、shuffle排序的取舍、groupByKey.map使用场景、cogroup使用场景、join方案代替cogroup、combiner的使用
　　数据倾斜：spark-sql数据倾斜group场景、spark-sql数据倾斜join场景、倾斜数据的清洗、随机前缀多次聚合、倍数扩容与倍数冗余、mapjoin、数据倾斜shuffle取舍
　　shuffle：consolidate机制、reduce task的拉取缓存、map task的写磁盘缓存、失败重试次数、失败重试间隔、reduce端内存聚合比例、sortShuffleManager
　　streaming：DStream接收并行度调优、block接收并行度调优、task接收并行度调优、处理并行度调优、序列化调优、batch间隔调优、streaming算子调化、内存调优、streaming执行化方案选择、压缩机制
　　spark-streaming-kafka：直连模式并行度调优、kafka分区offerset管理、offerset丢失容灾机制

【Flink介绍】

1. flink概述：

flink介绍、Flink生态、Flink的发展与未来趋势、与Hadoop Spark Storm的对比、flink的反压机制、Flink的DataFlow原理、Flink的带状态编程、flink的barrier、flink的exactly-once机制、flink的内存管理、flink的排序机制、flink的分布式原理、flink的计算资源、flink的Graph原理、flink的Operator Chains、flink的Slot共享机制、TaskSlot、Task与subtask、parallelism、SlotSharingGroup、CoLocationGroup、flink的Connector

2. flink安装：

local模式安装、Standalone模式安装、HA模式安装、yarn模式安装、TaskManger原理、JobManagers原理、Client原理、使用Flink集群运行WordCount、Flink Job的启动过程

3. flink窗口：

统计Windows、滚动Window、滑动Window、事件Window、自定义Windows、事件Time、获取Time、处理Time、Operator State、Keyed State、原始状态和托管状态、State Backend

4. flink开发：

Flink Scala/Java开发环境搭建、flink支持的数据类型、Processing Function、Operator基本算子介绍、flink的流式计算、DataStream Api、flink的批量计算、DataSet Api、flink的checkpoint与savepoint、Evaluation、DataSource、Transformation Functions、Sink、Accumulators & Counters、broadcast、Connector、Window Join、Interval Join、异步IO、Side Outputs、分布式缓存、Table & SQL、Flink批处理容错机制、Flink与Kafka集成开发实战、Flink与HDFS集成开发实战、Flink与HBASE集成开发实战、Flink与Redis集成开发实战

【授课方式】

线下纯面授。学习周期6个月，周一至周六(周三自习，周日休息),上2天课辅导自习1天，上3天课，休息1天,每天可在校学习时长15小时左右。

【教学特色】

1、真正大数据课程---打造企业求贤若渴的你

杜绝千篇一律的教学，只教你企业主流的大数据开发技术，创始人亲力亲为，所有技术都是出自企业真实的在线运行项目，让你真正搞懂Hadoop/spark/flink生态架构，真正做到独立搭建和设计大型商业项目，融合多种技术，从架构师的思维给你剖析，力争做到人人都是架构师。

2、拒绝纯讲师---技术精湛又懂学生心理的讲师才是你的爱

培训中心的大数据阶段讲师全部来自国内互联网企业技术大牛，为什么要花重金请互联网企业技术大牛？因为只有成熟的互联网产品才能产生上TB,PB级的数据量，对于互联网企业来讲数据就是生存的本钱，也只有互联网企业才懂得什么是数据的流量变现，所以只有做过这样业务的人，才懂得什么是大数据真正的价值。只有真正处理过TB,PB级数据量并做过真正大数据价值项目的人，才叫做大数据界的老司机。创始人来自猎豹的前身---金山公司的大数据开发核心人员，其他讲师以下也会有逐一介绍。

3、硬件环境---拒绝一直电脑上跑虚拟机，那不是在学真正的大数据

海牛培训中心服务器单台配置：48核 128G内存，16T硬盘，同时可以跑几十亿条的数据，共计11台的服务器，全天24小时免费提供给学员使用，学员毕业后还可再使用2个月。

4、暖心教育---高就业好口碑

以小组带动个人，不放弃任何一个想学习的人，讲师+助教全程关注跟进教学；学员钉钉考勤打卡形成自我管理；学员学习有红包+有礼品+有荣誉，正向激励促进学习风气。

就业率95%以上，每期班平均就业月薪15K左右，真实就业数据可以加过往期小海牛就业群一探究竟。学员可直接进入名企内推，辅导简历、面试，直到找到高薪工作。

课程内容以实际授课为准

学习课程：

软件开发
软件测试
数据库
Web前端
大数据
人工智能

您的基础：

零基础
有HTML基础
有PHP基础
有C语言基础
有JAVA基础
其他计算机语言基础

学习方式：

周末班
全日制白班
随到随学

免费通话申请试听

学校课程导航

查看更多课程

热门课程推荐

我们的服务

用户帮助

帮助中心

关于厚学

服务支持

北京零基础大数据开发就业培训班

软件系统

IT认证