请留下您的手机号
我们即刻安排课程老师为您回电!
您好
请留下您的联系方式,我们将主动给您回电!
第一时间为您安排就近试听!
该校与厚学网暂未合作,平台不保证课程的真实有效性,如有侵权等争议,请及时与厚学网联系处理
北京零基础大数据开发就业培训班

北京零基础大数据开发就业培训班

北京零基础大数据开发就业培训班
课程级别入门级 培训周期半年内
培训时间全日制
咨询电话 400-656-1390
微信咨询

微信扫二维码免费咨询

我们将给您发送更多独

家资料和课程视频!

北京零基础大数据开发就业培训班
课程说明
课程级别 入门级
培训周期 半年内
上课时间 全日制
上课地址 北京市昌平区回龙观育荣教育园区二层
授课对象
统招大专及以上学历,有一定的code能力、学习能力、良好的逻辑思维,热爱编程。
教程说明
1、人才稀缺未来3至5年,中国需要150万左右的大数据相关人才,目前大数据从业人数不足50万,市场需求远远得不到满足;
2、高薪纳贤:2018年大数据行业起薪突破20万每年,高出互联网普通技术开发人员134%,且人数扩大为2017年7.8倍;
3、行业需求:大数据对接金融、电商、医疗、新零售、物联网、工业、农业、交通和能源等行业,人才需求量持续扩大;
4、一将难求:前有万达集团60万聘请大数据人才,后有大数据专业毕业生20w就职,大数据人才“重金难觅”。
课程简介

【课程内容】

1、Java入门、Java基本语法、流程控制语句、数组、面向对象、常用类、集合、多线程、网络编程等;

2、MySQL数据库、JDBC、数据库连接池等;

3、HTML、CSS、JavaScript、JSP与Servlet、maven、S框架等;

4、Web实训项目、Linux实训项目、Hadoop实训项目等。

5、hadoop概述、hadoop服务器基础环境、zookeeper安装与使用、hadoop伪分布式环境、hadoop安装、hdfs分布式文件系统等。

6、hive介绍与安装、hive数据类型与基础语法、hive表操作、hive大数据查询等。

7、hbase概述、hbase安装、hbase原理、hbase的shell操作等。

8、oozie原理与安装、oozie任务调度、oozie的任务配置等。

9、flume概述与安装、flume应用、fume定制开发等。


【spark介绍】

1. rdd原理:

RDD设计背景、RDD概念、RDD转换、RDD行为、RDD血缘关系、RDD容错性、RDD内存使用、RDD缓存数据、RDD依赖关系、宽依赖、窄依赖、宽依赖与窄依赖的区别、RDD的阶段划分、RDD缓存、RDD数据倾斜解决、RDD优化

2. spark常用Transformations算子:

map、filter、flatMap、mapPartitions、mapPartitionsWithIndex、sample、union、intersection、distinct、groupByKey、reduceByKey、aggregateByKey、sortByKey、join、cogroup、cartesian、pipe、coalesce、repartition、repartitionAndSortWithinPartitions

3. spark常用Actions算子

reduce、collect、count、first、take、takeSample、takeOrdered、saveAsTextFile、saveAsSequenceFile、saveAsObjectFile、countByKey、foreach

4. spark-core

rdd常用操作、pairRdd常用操作、sparkconf配置对象、sparkcontext设置、spark-core的java版API、spark-core的scala版API、集合操作、cache函数、persist函数、unpersist函数、广播变量、累加器、spark编程wordCount、spark编程排序、spark编程二次排序、spark编程mapjoin、spark使用hadoop序列化方法、spark读写hive的ORC文件

5.spark-sql

hive与spark-sql对比、配置spark-sql使用hive元数据库、spark-sql在yarn上运行driver、spart-sql在yarn上运行thriftserver、beeline与thriftserver通信、缓存表、spark-jdbc编程、spark-sql读写json文件、spark-sql自定义schema、spark-sql对象化schema、spark-sql读写hive的orc格式文件、spark-sql的标准sql支持、spark-sql的hive sql支持、spark-sql使用JDBC访问mysql、dataFrame使用、dataSet使用、spark-sql与常用rdd的转换

6. spark-hbase

spark-hbase的java版API、spark-hbase的scala版API、spark写入hbase、spark批量写入hbase、spark中使用tableoutputformat多分区写入、spark的hadoopDataSet操作、spark批量读取hbase、spark使用filter过滤hbase数据、spark生成hbase的hfile文件、spark整合hbase的bulk load功能、spark-hbase集群运行调优

7. spark-streaming

流式计算的特点、spark-streaming的原理、spark-streaming的生态组件、storm与Spark Streming对比、spark-streaming的优缺点、spark-streaming的数据处理流程、spark-streaming的架构与抽象、spark-streaming的java版API、spark-streaming的scala版API、spark-streaming的DStream对象、DStream的Transformations操作、DStream的Output Operations操作、updateStateByKey原理与使用、DStream使用transform转换成RDD、windows函数原理、windows函数窗口间隔、windows滑动间隔、spark-streaming保存压缩文件、spark-streaming保存hive的ORC文件、spark-streaming数据导入到hbase、spark-streaming的socket模式、ncat工具的使用、spark-streaming的checkpoint原理、spark-streaming的文件模式、spark-streaming的kafka模式、spark-streaming编程在windows函数中使用updateStateByKey、spark-streaming编程使用历史数据中新值、spark-streaming编程使用checkpoint恢复历史数据、spark-streaming编程spark-streaming-kafka cogroup spark-streaming-file

8. spark调优

内存:对象头内存、String内存、集合内存、虚拟机垃圾回收原理、虚拟机垃圾回收调优、虚拟机对象内存空间分配、垃圾回收检测、优化executor内存比例
   序列化:Java序列化机制、Kryo序列化机制、优化Kryo类库缓存大小、注册自定义类型、禁用Kryo序列化引用
   数据结构:数组代替集合、字符串代替集合、JSON代替对象
   持久化:持久化、Checkpoint冗余
   并行度:算子并行度设置、conf默认并行度设置、cpu core与task并行度比例
   共享数据:共享数据优点、共享数据代替外部变量、使用共享数据shuffle
     数据本地化:数据本地化性能影响、PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY、数据本地方调化方案
   算子优化reduceByKey优点、shuffle排序的取舍、groupByKey.map使用场景、cogroup使用场景、join方案代替cogroup、combiner的使用
   数据倾斜:spark-sql数据倾斜group场景、spark-sql数据倾斜join场景、倾斜数据的清洗、随机前缀多次聚合、倍数扩容与倍数冗余、mapjoin、数据倾斜shuffle取舍
   shuffle:consolidate机制、reduce task的拉取缓存、map task的写磁盘缓存、失败重试次数、失败重试间隔、reduce端内存聚合比例、sortShuffleManager 
   streaming:DStream接收并行度调优、block接收并行度调优、task接收并行度调优、处理并行度调优、序列化调优、batch间隔调优、streaming算子调化、内存调优、streaming执行化方案选择、压缩机制
   spark-streaming-kafka:直连模式并行度调优、kafka分区offerset管理、offerset丢失容灾机制


【Flink介绍】

1. flink概述:

flink介绍、Flink生态、Flink的发展与未来趋势、与Hadoop Spark Storm的对比、flink的反压机制、Flink的DataFlow原理、Flink的带状态编程、flink的barrier、flink的exactly-once机制、flink的内存管理、flink的排序机制、flink的分布式原理、flink的计算资源、flink的Graph原理、flink的Operator Chains、flink的Slot共享机制、TaskSlot、Task与subtask、parallelism、SlotSharingGroup、CoLocationGroup、flink的Connector

2. flink安装:

local模式安装、Standalone模式安装、HA模式安装、yarn模式安装、TaskManger原理、JobManagers原理、Client原理、使用Flink集群运行WordCount、Flink Job的启动过程

3. flink窗口:

统计Windows、滚动Window、滑动Window、事件Window、自定义Windows、事件Time、获取Time、处理Time、Operator State、Keyed State、原始状态和托管状态、State Backend

4. flink开发:

Flink Scala/Java开发环境搭建、flink支持的数据类型、Processing Function、Operator基本算子介绍 、flink的流式计算、DataStream Api、flink的批量计算、DataSet Api、flink的checkpoint与savepoint、Evaluation、DataSource、Transformation Functions、Sink、Accumulators & Counters、broadcast、Connector、Window Join、Interval Join、异步IO、Side Outputs、分布式缓存、Table & SQL、Flink批处理容错机制、Flink与Kafka集成开发实战、Flink与HDFS集成开发实战、Flink与HBASE集成开发实战、Flink与Redis集成开发实战


【授课方式】

线下纯面授。学习周期6个月,周一至周六(周三自习,周日休息),上2天课辅导自习1天,上3天课,休息1天,每天可在校学习时长15小时左右。

【教学特色】

1、真正大数据课程---打造企业求贤若渴的你

杜绝千篇一律的教学,只教你企业主流的大数据开发技术,创始人亲力亲为,所有技术都是出自企业真实的在线运行项目,让你真正搞懂Hadoop/spark/flink生态架构,真正做到独立搭建和设计大型商业项目,融合多种技术,从架构师的思维给你剖析,力争做到人人都是架构师。

2、拒绝纯讲师---技术精湛又懂学生心理的讲师才是你的 爱

培训中心的大数据阶段讲师全部来自国内互联网企业技术大牛,为什么要花重金请互联网企业技术大牛?因为只有成熟的互联网产品才能产生上TB,PB级的数据量,对于互联网企业来讲数据就是生存的本钱,也只有互联网企业才懂得什么是数据的流量变现,所以只有做过这样业务的人,才懂得什么是大数据真正的价值。只有真正处理过TB,PB级数据量并做过真正大数据价值项目的人,才叫做大数据界的老司机。创始人来自猎豹的前身---金山公司的大数据开发核心人员,其他讲师以下也会有逐一介绍。

3、硬件环境---拒绝一直电脑上跑虚拟机,那不是在学真正的大数据

海牛培训中心服务器单台配置:48核 128G内存,16T硬盘,同时可以跑几十亿条的数据,共计11台的服务器,全天24小时免费提供给学员使用,学员毕业后还可再使用2个月。

4、暖心教育---高就业好口碑

以小组带动个人,不放弃任何一个想学习的人,讲师+助教全程关注跟进教学;学员钉钉考勤打卡形成自我管理;学员学习有红包+有礼品+有荣誉,正向激励促进学习风气。

就业率95%以上,每期班平均就业月薪15K左右,真实就业数据可以加过往期小海牛就业群一探究竟。学员可直接进入名企内推,辅导简历、面试,直到找到高薪工作。


课程内容以实际授课为准
  • 软件开发
  • 软件测试
  • 数据库
  • Web前端
  • 大数据
  • 人工智能
  • 零基础
  • 有HTML基础
  • 有PHP基础
  • 有C语言基础
  • 有JAVA基础
  • 其他计算机语言基础
  • 周末班
  • 全日制白班
  • 随到随学
免费通话 申请试听
已被浏览
590

学校课程导航

查看更多课程

校/区/安/排

筛选:
北京
全部校区 ABCD EFGHJ KLMNP QRSTW XYZ
北京
北京 B
海牛培训中心大数据校区
  • 海牛培训中心大数据校区
  • 海牛培训中心大数据校区
    • 学校地址: 北京市昌平区回龙观育荣教育园区二层
点击查看完整地图