目前课程版本:7.0 升级时间:2019.07.22 查看详细
我们的课程帮助了近500名零基础的学员高薪就业,近2000名学生正在努力蜕变中。0基础也能高薪就业的大数据课程。
湖北快3形态走势图_花少钱中大奖22270.COM-全面升级Spark核心就业项目,新增第四代大数据处理框架Flink,强化推荐系统实战并扩充至7天。
所有项目均是来自企业实战项目,报表分析、日志分析、推荐系统/广告系统、反欺诈系统、为就业提供强力保障。
课程全面覆盖大数据技术,数据收集、存储、计算、挖掘、展现,离线分析/实时分析/内存计算一网打尽。
大数据时代已然到来,在数据已经在一线企业、中小型企业、j8彩票平台_app下载_官网购彩大厅-统企业、互联网企业全面落地。就业不再局限于互联网行业。
0基础0经验的小白人员;想通过最低的成本来试一下自己是否适合做大数据相关工作的转型人员。
湖北快3形态走势图_花少钱中大奖22270.COM-注:获取更多免费学习视频+资料+笔记,请加QQ:2632311208。
全日制脱产,每周5天上课, 上两天课休息一天的上课方式(实际培训时间可能因法定节假日等因素发生变化)
部分校区可能会根据实际情况有所调整,详情可询咨询老师 点击咨询
大数据基础班课程大纲 | |||
所处阶段 | 主讲内容 | 技术要点 | 学习目标 |
第一阶段: Java基础 |
计算机基础 | DOS常用命令、Java概述、JDK环境安装配置、环境变量配置、Java程序入门 | 核心能力培养: 能够掌握DOS系统常用基本命令; 熟练使用eclipse编写java代码; 熟练使用java语言的常用对象; 使用java编写单机应用程序; 掌握面向对象编程思想,为以后深入学习JavaEE就业课程打下坚实的基础。 具备能力及市场价值: 湖北快3形态走势图_花少钱中大奖22270.COM-掌握Java基础知识,为后面就业班的java课程和大数据课程打下坚实的基础。 |
编程基础 | 常量与变量、数据类型、运算符、流程控制语句、方法、数组 | ||
面向对象 | 面向对象思想、类与对象、成员变量和局部变量、封装、 this关键字、构造方法 | ||
常用类 | Object类、Scanner类、Random类、String、StringBuilder类 | ||
集合操作 | 集合概述、集合特点、ArrayList集合 | ||
IO操作 | 字符输入流、字符输出流、字符缓冲输入流、字符缓冲输出流、 复制文件、集合与文件中数据相互读写。 |
本课程适合于计算机专业,有一定Java基础、通过入学考核的未就业人士。
提示:测试题主要考察您是否具备Java基础,以便我们统一入学基础,更好地开展教学工作。湖北快3形态走势图_花少钱中大奖22270.COM-如果您感觉测试题很难,我们建议您参加我们的Java基础班学习。
全日制脱产,每周5天上课, 上两天课休息一天的上课方式(实际培训时间可能因法定节假日等因素发生变化)
部分校区可能会根据实际情况有所调整,详情可询咨询老师 点击咨询
大数据就业班课程大纲 | |||
所处阶段 | 主讲内容 | 技术要点 | 学习目标 |
第二阶段: JavaWeb阶段 |
Java基础增强 | 类加载器、反射、网络编程、端口和协议、TCP协议、服务端、客户端、多线程、线程和进程、线程的生命周期、线程安全、代码同步、注解、JDK常用注解、自定义注解 | 核心能力培养: 运用常用的网页开发技术设计网页; 掌握WEB系统交互原理; 掌握JavaWeb开发核心技术; 掌握JavaWeb高级技术,创建更好的Web应用程序; 具备B/S结构软件开发能力; 掌握数据库的相关技术; 掌握如何使用Maven管理项目工程。 具备能力及市场价值: 能够完成B/S结构网站开发,具备了真实环境的项目部署能力; 能够完成中小型企业管理系统等j8彩票平台_app下载_官网购彩大厅-统项目的开发。 |
前端 | HTML、CSS、JavaSript、BootStrap | ||
数据库 | MySQL数据库、MySQL单表操作、MySQL多表操作、MySQL事物、 MySQL存储引擎、JDBC、JDBCDataSource | ||
Web核心 | Tomcat、Http协议、servlet入门、Rquest、Response、JSP、MVC、 Cookie、Session、JSP、ETLJSTL、Filter、listener | ||
web增强 | Jquery、Ajax、ajax跨域、分页 | ||
项目构建及管理 | Maven项目构建、管理、编译、仓库配置、 Git项目管理 | ||
可视化项目 | 采集数据(埋点) 、echarts的快速入门 、使用echarts显示分析结 | ||
第三阶段: Hadoop技术栈实战详解 |
Linux实战 | Linux概述、vmware workstation安装、vmware网卡net1和net8介绍、centos安装和配置、Linux目录结构、超级用户和普通用户介绍和区别、linux的gateway、netnask和DNS讲解、Linux的网卡配置介绍(networking)、主机名配置(临时和永久)、IP配置(DHCP和static)、防火前介绍和配置(iptables和sellinux)、ssh工具安装、连接和使用、SCP工具安装、连接和使用、关机和重启操作、Linux用户、文件和权限操作 用户管理操作、文件、文件夹管理操作、文件查找操作(find、grep)、VI和VIM文本编辑器操作、文件压缩和解压操作(tar、unzip)、Linux的RPM查询、安装和卸载Linux shell编程、循环编程(if、case、for、while)、awk、sed文本处理操作、ssh无密码登录配置、scp多节文件拷贝操作、expect介绍和使用、yum本地源配置、nestat 查看顿口使用情况、查看节点的CPU、cores、内存的大小、top 、iostat命令的使用 | 核心能力培养: 能够掌握DOS系统常用基本命令; 熟练使用eclipse编写java代码; 熟练使用java语言的常用对象; 使用java编写单机应用程序; 掌握面向对象编程思想,为以后深入学习JavaEE就业课程打下坚实的基础。 具备能力及市场价值: 掌握Java基础知识,为后面就业班的java课程和大数据课程打下坚实的基础。 |
大数据基础和 硬件介绍 |
什么叫大数据、大数据的特点、分布式存储概念、分布式计算的概念、服务器种类介绍、机架、交换机、网络拓扑、Raid、IDC数据中心 | ||
Zookeeper | Zookeeper的应用场景、Zookeeper的架构和原理、Zookeeper的存储模型、Zookeeper的Znode创建、Zookeeper的选举机制、Zookeeper的客户端操作 | ||
HDFS组件 | HDFS设计的特点、master-slave架构介绍、block块存储、RF拷贝因子、机架感知、block拷贝策略、namenode功能介绍、datanode功能介绍、Metadata元数据介绍、读写流程、HDFS Federation功能介绍、HDFS snapshots快照介绍、NameNode HA架构和原理、HDFS管理员常用操、HDFS权限控制 | ||
MapReduce组件 | MapReduce设计的目标、MapReduce架构和原理、MapReduce快速入门、Mapper抽象类、Reducer抽象类、Split机制、Map和Reduce个数的确定、Combinar机制、Partition机制、自定义Partition、MapReduce序列化、MapReduce自定义排序、Mapreduce数据的压缩、InputFormat抽象类、自定义InputFormat、Recordreader机制、自定义、RecordReader、二次排序 | ||
Yarn组件 | Yarn原理和架构、RM和NM功能介绍、Application Master功能介绍、Container介绍、Container资源的封装(CPU、内存和IO) 资源调度策略(FIFO、Fair和Capacity)、Fair Scheduler配置和使用、Yarn实现计算资源多租户配置和使用 |
||
Hive组件 | Hive的功能介绍、创建表、本地加载数据、HDFS加载数据、基本数据类型、复合数据类型、静态分区、动态分区、临时表、Metastore服务、HiveServer2、内置函数、自定义UDF和UDAF、数据压缩、ORC、Parquet、自动化脚本、常见性能优化、explain执行计划详解 | ||
Impala组件 | Impala的应用场景、架构和原理、安装、基本查询语法、shell交互窗口、数据加载、JDBC连接Impala、Impala的优化、invalidate metadata、compute stats使用 | ||
Sqoop&CDC&DataX | sqoop功能介绍、sqoop架构和原理、import命令、export命令、抽取mysql数据到HDFS、抽取HDFS数据到mysql、抽取mysql数据到Hive、抽取Hive数据到mysql、sqoop增量抽取数据、CDC工具介绍、OGG功能介绍和影场景、canal功能介绍和应用场景、DataX功能介绍和应用场景 | ||
Oozie&Azkaban | Oozie的安装与介绍、Oozie语法介绍、Oozie任务调度配置-XML、Oozie的工作流调度机制、Azkaban的安装 Azkaban架构和原理、Azkaban的任务调度 |
||
第四阶段: NoSQL、Kafka和ELK技术实战 |
Redis&Hbase 组件 | NoSQL介绍、Redis的原理和架构、Redis的使用、Redis的集群搭建、Hbase的应用场景、Hbase架构和原理、表的的创建和使用、列簇、多版本控制、增删改查操作、Java API操作、HFile读取、split操作、flush操作、compact操作、过滤器、RowKey设计和优化策略、HBase+Redis微博实战案例 | 核心能力培养: 掌握NoSQL数据库的特点和应用场景; 掌握Hbase的应用场景和核心原理; 掌握Hbase的RowKey设计的策略; 掌握Hbase常用的性能优化手段; 掌握分布式数据发布和订阅的工具Kafka; 掌握Kafka工具的使用和性能优化; 掌握ELK技术栈(end-to-end)的应用场景; 掌握Logstash数据抽取、清洗,ElasticSearch分布式检索,Kibana数据展示的应用。 可解决现实问题: 解决Hbase的RowKey高性能设计策略,满足业务的需求; 解决Hbase的性能瓶颈,解决业务问题对Hbase高性能的挑战; 解决企业里面海量数据实时j8彩票平台_app下载_官网购彩大厅-输的问题; 解决海量日志快速检索和监控问题。 市场价值: 具备大数据高性能数据读写的常用技术解决方案开发思想,为以后学习大数据项目阶段打下坚实的基础。 |
Kafka组件 | 为什么需要消息系统、kafka应用场景、kafka架构和原理、Kafka的CAP特性、topic(创建、修改和删除)、partition策略、自定义Partition、offset、replication、Message读写过程、Message的存储策略、producer、consumer、Consumer Group使用、Java API操作、监控工具和优化 | ||
ELK技术栈 | Elasticsearch的功能、架构和原理、拷贝机制、Head插件、Index索引、Get、Delete、Update、聚合操作、监控插件bigdesk、DSL、SQL插件使用、ELK的应用场景介绍、Logstash的功能介绍、Logstash常用插件介绍、kibana的功能介绍、数据探索、可视化、常用插件使用、ELK实战 | ||
第五阶段: Spark技术栈实战详解 |
Scala语言 | Scala基础、声明变量、数据类型、条件表达式、块表达式、循环、方法和函数、数组、元组、集合、Iterator、构造器、伴生对象、akka | 核心能力培养: 掌握分布式内存计算的思想; 掌握Spark分布式计算的架构和思想; 掌握Spark和Mapreduce分布式计算框架的比较和区别; 掌握Spark的RDD、DAG、Task、Partition等设计思想; 掌握Spark SQL的功能、SparkSQL+Hive的整合; 掌握DataFrame、DataSet的编程模型; 掌握Structured Streaming的应用场景和与Kafka的整合; 掌握MLlib数据挖掘的思想和GraphX图计算的思想; 湖北快3形态走势图_花少钱中大奖22270.COM-掌握Spark技术栈的高级特性和性能调优的能力。 可解决现实问题: 解决企业面对海量数据处理慢的问题; 解决大数据平台数据挖掘的应用场景; 解决大数据平台实时计算的应用场景; 解决Spark在企业级应用常见的问题和性能调优的方法和技巧。 市场价值: 目前Spark是企业级大数据平台必备的使用技能,Spark对找工作有着决定性的优势,是企业级的大数据离线分析、数据挖掘、实时计算不可或缺的技术栈。 |
Spark Core | Spark的应用场景、架构和原理、入门案例、Spark Session讲解、RDD的概念和特性、Transformation RDD讲解、Action RDD讲解、Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制、RDD的广播操作、DAG思想、DAG的生成、DAG的处理过程、运行机制、Driver和Executor | ||
Spark SQL | Spark SQL功能介绍、DataFrame、DataSet、RDD、Dataset和DataFrame的转换、读写Hive表数据、读写HDFS的数据、DataFrame的API操作、读取文件(txt、CSV、Json、parquet)、临时表、读写RDBMS、Spark SQL执行计划、Spark SQL的性能优化 | ||
Structured Streaming | Structured String的功能介绍、input功能、output功能、window操作、watermark操作、过期数据操作、去重数据操作、 整合Socket数据、整合Kafka数据、OutputModel(Append\complete\update)功能、 Flume+kafka+Structured Streaming实现用户访问行为的实时分析 |
||
Spark Mllib | Mllib的决策树和随机森林、Mllib线性回归原理及使用、Mllib逻辑回归原理及使用、Mllib KMeans原理及使用、Mllib朴素贝叶斯原理及使用、Mllib关联算法原理及使用、Mllib的ALS推荐算法原理及使用、Mllib实现电信用户流失模型案例 | ||
Spark GraphX | 什么是图、图的组成和概念、GraphX构造图、GraphX图的基本操作、 GraphX实现最短路径、 GraphX最小连通图、 GraphX PageRank算法实现、Neo4j图数据库使用、GraphX 社交图的构建 |
||
Spark高级 和优化 | DAG优化、核心参数的解释和优化、Shuffle原理和优化、内存管理机制(堆内和堆外)、通信协议Netty原理、 Executor的性能优化、核心参数优化、核心源码解读 |
||
第六阶段: Flink技术栈实战详解 |
Flink Core | Flink的运行机制、Flink组件和逻辑计划、Flink执行计划生成、JobManager中的基本组件、TaskManager、算子、网络、水印WaterMark、CheckPoint、任务调度与负载均衡 | 核心能力培养: 掌握分布式实数计算框架架构和思想; 掌握Flink、Spark和MapReduce的区别; 掌握Flink流式计算的功能和应用; 掌握Flink SQL的使用; 掌握Flink DataStream的使用; 掌握Flink CEP复杂事件处理的应用场景; 掌握Flink的常用优化手段和技巧。 可解决现实问题: 解决企业里面海量数据对实时性要求要的数据分析和应用; 解决企业里面流式复杂事件处理的问题; 湖北快3形态走势图_花少钱中大奖22270.COM-解决Flink企业级应用常见的优化技巧和手段。 市场价值: Flink目前的人才需求缺口非常的大、非常的稀缺 目前Flink在大型互联网公司使用的非常的广泛,在j8彩票平台_app下载_官网购彩大厅-统行业Flink目前也是处在一个爆发的阶段。 |
Flink StreamSQL | StreamSQL的功能介绍、StreamSQL的编程接口介绍、StreamSQL常用算子介绍、StreamSQL的Window操作、StreamSQL和Kafka整合 | ||
Flink SQL | Environment功能、注册一个Table、注册一个Table Source、注册一个外部Catalog(目录)、Table API和SQL 操作、注册Table、将Table转换为DataStream或者DataSet、Table的执行计划 | ||
Flink CEP | CEP的应用场景、CEP原理、单个模式、混合模式、忽略策略、示例场景实现 | ||
Flink项目实战 | Flume+Kafka+Flink+Hbase+Sqoop+canal+MySQL案例实战 | ||
第七阶段 : 大数据新技术实战详解 |
Kudu | Kudu的应用场景、原理和架构、分区策略、读写过程、常用操作、Kudu整合Impala实战 | 核心能力培养: 掌握Kudu的功能和应用场景; 掌握Kylin的功能和应用场景; 掌握Druid的功能和应用场景; 掌握维度建模的方法和常用的技术。 可解决现实问题: 解决企业级OLAP的解决方案; 解决企业级实时数仓的解决方案; 解决企业里面离线的指标分析遇到的问题。 市场价值: Kudu、Kylin和Druid目前人才需求量在不断的增加; 未来大数据平台的离线或者流式的指标统计基本全用Kylin和Druid实现。 |
Kylin | Kylin的应用场景、原理和架构、Hive数据加载、本地数据加载、Kafka数据加载、创建Module、创建Cube、增量Cube、Cube优化、Kylin+Hive实战 | ||
Druid | Druid应用场景、集群搭建、数据加载、重要概念、架构及原理、数据查询、元数据、实时应用案例 | ||
数据仓库概念和设计方法 | 数据仓库的概念、数据模型概念、、维度模型、雪花模型、数据架构、数据分层介绍、ODS层设计、DW层设计、DWB/S层设计、DM层设计、应用层设计、基于Hadoop大数据平台实现数据仓库、企业级数据仓库案例介绍、企业级数据仓库设计的规范 | ||
第八阶段: 项目实战一 |
《企业级360°全方位用户画像》技术栈 | Hadoop的技术栈(Hadoop、hive、Impala、Hbase、Sqoop)、Spark2.0的技术栈(Spark Core、Spark SQL、Spark Mllib)、分布式检索(ElasticSearch)、多维分析(Kylin)、关系型数据库(Mysql)、平台管理(Zookeeper、Ambari)、调度框架(Oozie、Azkaban) | 可掌握的核心能力: 通过Sqoop迁移业务数据到HBase; 基于数据内容确定业务场景并使用SparkMLlib建模 ; 建立标签及其规则关联算法模型 ; 确定标签更新周期生成Oozie的定时工作流执行; YARN执行作业完成后写入画像结果数据到HBase和Solr ; 通过RestAPI查询Solr并实时生成用户画像结果展示; 标签的分类; 组合标签的创建和RFM模型使用。 可解决的现实问题: 1.用户画像是大数据应用的底层核心的服务,例如:推荐、营销、千人千面、个性化推荐和精准营销等应用都依赖于用户画像服务; 2.通过对用户进行画像,实现不同用户的个性化服务,提高企业的营收。 市场价值: 使用比较广泛,在企业里面,基本只要有大数据平台,就会有基础服务用户画像; 此项目可以举一反三,应用到其他的行业里面,如:金融、电信和航空等; 行业绝对领先的大数据项目实战。 |
第九阶段 : 项目实战二 |
《千亿级数据仓库》 技术栈 |
Flink技术栈(Flink SQL、Flink DataSet、Flink DataStream、Flink CEP)、Spark2.x技术栈(Spark Core、Spark SQL、Structured Streaming)、时序数据存储分析(Druid)、历史数据存储以及资源管理(HDFS、Yarn、MapReduce、Hive、Hbase)、数据采集同步(Flume、Sqoop、canal、DataX、Kafka)、平台管理(Zookeeper、Cloudera Manager)、调度框架(Oozie、Azkaban) | 可掌握的核心能力: 企业级离线和流式数仓建设的方案和思想; 企业级数据仓库建设的难点攻克; 数仓模型的设计分层设计思想、指标/维度设计思想和模块设计思想; 阿里巴巴数仓分层架构(ODS-DWB-DWS-DM-ADS)实战; 采用Flink的低延迟,状态管理等特性进行实时指标的开发,提高指标的计算效率真正做到指标的实时统计; 利用Druid时序分析数据库进行数据的存储以及指标的统计; 离线数仓hive通过扩展Kylin、HBase等框架,实现对离线数据的即席查询。 可解决的现实问题: 基于Flink和Druid实现实时数仓的解决方案,对于数据法人运营者来说,能够实时的了解数据的情况,从而做出相应的数据决策,同时也解决了数据量非常巨大隔夜分析、统计的问题; 解决了企业级海量数据存放的问题,通过数仓分层架构(ODS-DWB-DWS-DM-ADS),实现数据易用性、可用性、稳定性、可扩张性和安全性; 本项目,通过类似于阿里双十一大屏显示的功能,实现了海量数据实时分析和展现。 市场价值: 目前企业主要以离线数据仓库为主,现在一些大型的互联网公司开始使用Flink+Druid来实现实时数仓的功能,人才缺口比较大; 培养目前比较流行的技术Flink和Druid; 增强企业级项目实战的经验。 |
第十阶段: 深度学习实战 |
Python基础和 常用库介绍 |
Python基本语法、Python常用库、anaconda工具介绍、Numpy库功能和使用、Pandas库功能和使用、Matplotlib&Seaborn库功能和使用 | 核心能力培养: 掌握机器学习算法理论基础; 熟悉Python语言基础及数据科学库; 熟悉机器学习应用场景; 掌握scikit-learn机器学习库结合Python完成全栈机器学习建模; 掌握Tensorflow深度学习平台的使用 掌握使用Tensorflow实现计算机视觉、自然语言和情感分析问题 可解决现实问题: 通过使用Tensorflow解决企业里面深度学习的应用 解决了深度学习的算法选择和平台的选择 市场价值: 能够胜任机器学习、数据挖掘等相关工作,包括推荐算法工程师、数据挖掘工程师、机器学习工程师,填补人工智能领域人才急剧增长缺口。 |
深度学习基础 | MP神经元、感知机模型、激活函数、求导、cost函数、梯度下降算法、输入层、隐藏层、输出层、如何设计一个神经网络结构 | ||
Tensorflow 基础和实战 |
Tensorflow简介、环境安装、计算图的简介、计算图及张量实战、变量简介、tensorflow简要计算实战、 tensorflow线性回归案例实战、tensorboard基本用法、tensorboard用法详解、tensorboard实战线性回归 | ||
Tensorflow计算机 视觉实战 |
tensorflow实战手写体数据、tensorflow泰坦尼克号实战1、tensorflow泰坦尼克号实战2、tensorflow实战多层感知机理论基础、tensorflow多层感知机实战Mnist数据集、CNN网络结构浅析、CNN网络结构详解、CNN概念补充详解、CNN实战1、CNN实战2 | ||
Tensorflow 自然语言处理 |
RNN基础场景及数据定义、RNN前向j8彩票平台_app下载_官网购彩大厅-播详解、RNN反向j8彩票平台_app下载_官网购彩大厅-播详解、RNN结构分类、语言模型详解及RNN解决方案、RNN总结回顾及案例实践、RNN前向逐步算法代码演示、GRU单元、LSTM原理及结构、LSTM实战手写体识别、GRU及其他变种实现手写体识别 | ||
Tensorflow文本 情感分析项目 |
RNN实战文本情感分析项目、项目必备基础知识详解、RNN及LSTM及Gru简介、词嵌入及加载数据集、训练词向量模型、定义RNN网络结构、RNN网络训练集模型准确率 |
备注:该课程大纲仅供参考,实际课程内容可能在授课过程中发生更新或变化,具体授课内容最终以各班级课表为准。
本课程适合于计算机专业,有一定Java基础、通过入学考核的未就业人士。
提示:测试题主要考察您是否具备Java基础,以便我们统一入学基础,更好地开展教学工作。如果您感觉测试题很难,我们建议您参加我们的Java基础班学习。
在线学习
随到随学 ,详情可询咨询老师 点击咨询
大数据中级进修课-课程大纲 | |||
所处阶段 | 主讲内容 | 技术要点 | 学习目标 |
第十一阶段: 大数据安全 (中级班) |
企业级大数据 平台安全实战课程 |
企业级大数据平台安全架构、Kerberos架构原理 、Kerberos认证配置 、Sentry架构和原理 、sentry授权配置 、Kerberos+sentry实战、HDFS安全控制 、Hive安全控制 、Hbase的安全控制 | 可掌握的核心能力: 掌握企业级常用的大数据应用解决方案; 掌握大数据平台的安全架构,不同的安全级别; 掌握大数据平台数据流转和分发的工具,加快企业级数据开发; 掌握OLAP的应用场景,根据不同的需求选择OLAP分析技术; 掌握大数据数据可视化的工具使用; 掌握目前主流的数据库TiDB的应用场景和典型案例; 掌握常用的企业级大数据平台HDP和CDH的使用和运维; 掌握企业级数仓和数据湖的建设方案和典型案例。 可解决的现实问题: 解决企业使用大数据平台存在的一些业务难点; 解决企业级数仓建设的过程和常见的问题、及解决方案; 增加企业级大数据应用实战,能够合理设计大数据平台的技术架构和数据架构 。 市场价值: 实现中级程序员的标准,甚至达到大数据的顶端人才所需的技能要求 ; 丰富的企业级案例和架构实战。 |
第十二阶段: 数据流程设计 (中级班) |
数据流程 设计工具 |
NIFI架构和原理 、NIFI核心功能 、NIFI的Processor介绍和开发、NIFI数据流程设计实战、Kettle基础操作 、Kettle的Hadoop操作、Kettle操作Hbase、Kettle操作Hive、Kettle项目案例实战 | |
第十三阶段 : OLAP分析工具 (中级班) |
OLAP 数据分析工具 |
Kylin的架构和原理、Kylin的快速入门、Kylin的核心功能和优化、Kylin的案例实战、Druid的架构和原理、Druid的核心功能、Druid的实战项目 | |
第十四阶段: 企业级大数据平台 (中级班) |
HDP和CDH 平台安装 |
HDP平台安装、HDP平台的使用、HDP平台的管理和运维、CDH平台安装、CDH平台的使用、CDH平台的管理和运维 | |
第十五阶段 : 开发和数据可视化 (中级班) |
Zeppelin和 Superset |
Zeppelin原理、Zeppelin的使用、JDBC、Hive、SparkSQL、Hbase、sh、Zeppelin案例实战:数据采集 、数据发现 、数据分析 、数据可视化和协作Superset安装和使用、Superset连接HDFS、Superset连接Hive、Superset图标拖拉拽实现、Superset数据可视化实战 | |
第十六阶段 : TiDB数据库 (中级班) |
TiDB数据库 实战 |
CAP的原理、分布式存储原理、TiDB架构和原理、TiDB优化器、TiDB执行引擎、RocksDB基本架构、TiKV架构和原理、TiKV分布式事务、TiKV分布式调度、TiDB+Spark项目实战 | |
第十七阶段: 数据仓库和数据湖 (中级班) |
数据仓库和 数据湖企业级实战 |
数据仓库的概念、数据模型概念、、维度模型、雪花模型、数据架构、数据分层介绍、ODS层设计、DW层设计、DWB/S层设计、DM层设计、应用层设计、基于Hadoop大数据平台实现数据仓库、企业级数据仓库案例介绍、企业级数据仓库设计的规范 、数据湖的功能、数据湖的架构、L区、C区、R区和D区的划分原则、某大型商业银行数据湖案例分享 | |
主讲项目 | 项目描述 | 技术要点 | 学习目标 |
《千亿级实时数据仓库》 (互联网) |
千亿级实时数据仓库项目是基于垂直电商的618狂欢节全品类商品的实时仪表盘,由于当日每秒都会生成百万级订单及其支付,对时效性要求高,由于计算指标涉及订单数、订单金额相关,具备严格的Exactly Once特性。 | 1.使用Canal采集关系型数据库结构化的交易数据; 2.使用Flume采集非结构化的用户行为数据到Kafka; 3.使用Kafka存储埋点系统产生的实时的用户行为数据; 4.使用Hive、HBase存储大规模数据; 5.基于ODS-DWB-DWS-DM-ADS的数仓分层; 6.使用Oozie调度Spark定时工作流处理和计算分层数据; 7.使用Kylin预计算DM层的数据立方体满足多维查询; 8.使用Zeppelin+Impala实现灵活的数据开发功能; 9.使用Superset实现EDW的可视化; 10.使用Flink计算实时访客相关指标; 11.使用Druid实时聚合订单和销售等相关指标; 12.使用ECharts实现实时Dashboard的可视化 |
可掌握的核心能力: 企业级离线和流式数仓建设的方案和思想; 企业级数据仓库建设的难点攻克; 数仓模型的设计分层设计思想、指标/维度设计思想和模块设计思想; 阿里巴巴数仓分层架构(ODS-DWB-DWS-DM-ADS)实战; 采用Flink的低延迟,状态管理等特性进行实时指标的开发,提高指标的计算效率真正做到指标的实时统计; 利用Druid时序分析数据库进行数据的存储以及指标的统计; 离线数仓hive通过扩展Kylin、HBase等框架,实现对离线数据的即席查询。 可解决的现实问题: 基于Flink和Druid实现实时数仓的解决方案,对于数据法人运营者来说,能够实时的了解数据的情况,从而做出相应的数据决策,同时也解决了数据量非常巨大隔夜分析、统计的问题; 解决了企业级海量数据存放的问题,通过数仓分层架构(ODS-DWB-DWS-DM-ADS),实现数据易用性、可用性、稳定性、可扩张性和安全性; 本项目,通过类似于阿里双十一大屏显示的功能,实现了海量数据实时分析和展现。 市场价值: 目前企业主要以离线数据仓库为主,现在一些大型的互联网公司开始使用Flink+Druid来实现实时数仓的功能,人才缺口比较大; 培养目前比较流行的技术Flink和Druid; 增强企业级项目实战的经验。 |
智慧学成 (在线教育) |
智慧学成项目是对在线教育平台业务进行大数据统计分析的系统,对课程、用户、教育机构三个业务领域进行数据挖掘,采用企业级ETL的规范化研发流程,以及企业级数据仓库建模思想,对课程、用户、机构三个主题的不同维度进行数据分析,挖掘数据的价值,为在线教育平台运营提供参考数据依据。项目采用Hadoop、Spark主流技术栈开发,提供数据仓库、ETL、离线分析、实时分析等多种解决方案,为企业运营发展保驾护航。 | 1、离线数据仓库分层设计解决方案 2、离线数据建模采用Spark+Hive 3、智能ETL采用Kettle、NiFi 4、ETL数据清洗采用SparkCore+SparkSQL; 5、离线数据分析采用SparkSQL+Hive 6、智能数据采集完整方案WebJs+SpringBoot+Kafka+Flume+HDFS 7、实时数据分析采用Spark Streaming+Redis; 8、大数据即时查询采用Elasticsearch+HBase; 9、大数据数据流管理采用Apache NiFi 10、业务数据报表采用vue.js+EChars+SpringBoot+MySQL |
可掌握的核心能力: 数据仓库分层设计应用能力; Hive离线数据建模开发能力; Kettle、NiFi智能ETL应用及开发能力; SparkCore+SparkSQL数据清洗开发能力; SparkSQL离线数据分析开发能力; 数据采集系统设计及应用能力; Spark Streaming+Kafka+Redis实时数据分析应用及开发能力; Elasticsearch+HBase大数据即时查询开发能力; Apache NiFi大数据数据流管理应用能力; EChars+SpringBoot+MySQL业务数据报表开发能力。 可解决的现实问题: 基于业务驱动,使用Hadoop、Spark等主流大数据技术构建大数据分析架构,包含数据采集、智能收集、数据清洗、离线分析、实时分析、即时数据查询、分层多维度数据仓库、可伸缩存储架构及安全治理等。在此架构基础上利用对在线教育业务数据进行分析,包括:课程数据、学生数据、在线学习数据等,最终形成多维度统计图表、分析报表,为企业管理者提供产品优化依据及企业经营决策依据。本架构可平滑应用于金融、电商等其它业务领域,在此基础上可快速构建业务分析指标,缩短大数据项目的开发周期。 市场价值: 技术领先的大数据分析项目,紧跟市场业务步伐,解决互联网大数据分析的人才缺口; 使用主流Hadoop、Spark技术栈,培养市场需要的Spark应用开发人才; 项目涉及数据仓库、ETL、离线分析和实时分析解决方案,就业市场前景广阔。 |
黑马电商推荐系统 (电商推荐) |
黑马电商平台个性化推荐系统项目通过采集用户购买、加购、浏览、收藏、点击等用户动态行为数据,结合用户静态属性(基于人口统计学信息)数据。通过混合推荐系统平台推荐给用户最可能购买的商品。项目依托于Hadoop大数据平台,完成了用户行为数据采集、用户数据分析、实时查询、实时展现以及通过构建推荐引擎实现离线和实时推荐,将结果通过Hbase或Redis存储推荐结果,通过线下构建用户兴趣模型、线上ABTest测试推荐结果的可行性。 | 1.项目使用技术栈Nginx+Lua+Javascript埋点实现自定义日志采集; 2.通过Azkaban实现对离线统计和离线推荐服务的调度,设定时间实现对任务的触发调度执行; 3.离线数据通过HDFS完成存储,使用HIveSql完成离线数据统计分析; 4.实时数据通过;Flume+Kafka+SparkStreaming处理业务数据; 5.项目通过SparkSql完成业务指标数据统计分析与构建特征库; 6.不同召回推荐结果数据加载到ElasticSearch、Hbase和MongoDB等数据存储平台; 7.构建以Scala为技术实现的基于记忆推荐引擎(UserCF与ItemCF)、构建基于ALS的基于模型的协同过滤算法、基于FP-Growth的关联挖掘算法以及基于内容的推荐完成混合推荐; 8.应用SparkGraphX的SVD++算法模型实现基于图计算的推荐方式,利用Neo4j构建用户和商品的关系图示; 9.项目在文本评论方面采用Word2Vec构建词向量,基于词向量相似度推荐商品。CTR/CVR点击率预估模型部分使用GBDT算法结合独热编码得到稀疏特征,在利用逻辑斯特回归算法进行CTR点击率预估,融合排序后的结果。 |
可掌握的核心能力: 推荐系统设计能力、推荐系统核心算法应用能力; Hive离线指标统计开发能力; Azkaban实现对离线统计和离线推荐服务的调度能力; Flume+Kafka+SparkStreaming处理业务数据能力; SparkCore+SparkSQL数据清洗开发能力; MongoDB、HBase进行海量数据的存储的解决方案; Elasticsearch+HBase大数据即时查询开发能力; SparkSql完成业务指标数据统计分析与构建特征库能力; Zeppelin整合SparkSql及PySpark业务交互统计能力; UserCF&ItemCF基于记忆协同过滤召回推荐算法能力; LFM&ALS基于模型的协同过滤召回推荐算法能力 Apriori和FP-Growth的关联挖掘算法能力; SparkGraphX的SVD++算法模型实现基于图计算的推荐能力; 基于SparkMllib的GBDT+LR推荐结果排序算法模型能力; Xgboost4J(Xgboost On Spark)算法应用改进排序模型; 基于Tensorflow的Wide&Deep与DeepFM排序模型应用能力; 应用SparkGraphX+Neo4J进行关系挖掘能力。 可解决的现实问题: 基于多屏多品类电商业务推荐场景驱动,使用Hadoop、Spark等主流大数据技术构建大数据分析架构,包含数据采集、智能收集、数据清洗、离线分析、实时分析等功能,在此架构基础上的推荐业务通过主流推荐算法、机器学习和深度学习算法完成智能商品推荐。本架构可平滑应用于金融、电信等其它行业推荐业务领域,在此基础上可快速构建业务分析指标,缩短大数据和人工智能整合项目的开发周期。 市场价值: 技术领先的推荐系统核心项目,紧跟市场业务步伐,解决互联网大数据分析与建模方面的人才缺口; 基于主流Hadoop、Spark技术栈,培养市场需要的Spark机器学习与数据挖掘方向应用开发人才; 项目使用主流机器学习和深度学习算法应用于推荐场景,解决市场上大数据和人工智能综合应用型人才的需求问题。 4、项目涉及主流的推荐系统架构设计和推荐算法核心解决方案,就业市场前景广阔。 |
《电信信号强度诊断》 (电信行业) |
1、本项目基于某公司开发的手机测速软件采集的数据对用户的手机网速、上行下行流量,网络制式、信号强度等信息进行宏观分析。 2、本项目总体分为三大模块,分别为数据导入模块、数据处理模块、报表生成模块、地图处理和渲染。 1)数据导入模块: 数据加载模块主要用于在j8彩票平台_app下载_官网购彩大厅-统关系型数据库与大数据平台之间进行数据j8彩票平台_app下载_官网购彩大厅-输,将mysql数据库内的同步到大数据平台中。实时新数据首先进入mysql中。 除此之外,该平台数据导入模块还负责数据原始文件、本地wifi文件的自动导入功能。 2)数据处理模块: 数据处理模块主要用于对已经加载到大数平台的数据根据实际业务需求进行更深入的处理、分析、运算、加工。 3)报表生成模块: 报表生成模块主要用于对已经被大数据平台处理过的数据进行图形化转化、界面化的展示。以便于领导比较简单的、直观的了解经处理后的数据所j8彩票平台_app下载_官网购彩大厅-递的信息。 4)地图处理和渲染: 百度和高德地图的LBS服务使用,地图网格的切分思想,地图热力图的显示,街景的实现,大数据基于地图的安防案例实现 |
1.使用Hive实现数据仓库的功能; 2.Phoenix on Hbase实现类似SQL的查询; 3.Hbase二级索引的创建; 4.使用Azkaban实现任务的调度; 5.Canal解析Mysql的日志数据,实现MySql数据的增量抽取; 5.使用Kafka实现数据的发布和订阅; 6.使用SparkStreaming+Kafka实现信号的实时计算; 7.百度地图LBS服务的使用; 8.掌握地图网格的划分原则和思路。 |
可掌握的核心能力: 熟练使用hive外部表; 熟练使用hive内部表; 熟练使用Hive reflect; 熟练使用Hive自动化脚本; 熟练使用Phoenix 数据加载; 熟练使用 Hive内置函数; 掌握Hive自定义UDF; 掌握Hive reflect; 掌握Phoenix 创建二级索引; 掌握Phoenix创建危机索引原则、思路; 掌握Azkaban工作流配置; 掌握Azkaban工作流调度使用; 掌握Canal解析Mysql日志; 掌握kafka生产数据; 掌握SparkStreaming消费kafka数据的方式; 掌握SparkStreaming实时分析的代码实现过程; 掌握信号强度分析的实现思路; 掌握网络质量分析的实现思路; 掌握热门APP、手机的计算思路。 可解决的现实问题: 将大数据相关技术与地图整合,结合百度地图,实现可视化信号强度展示,可以清晰的识别出各家运营商的信号强度; 结合街景图、可以计算用户八个方向的信号强度、热门APP、热门系统等; 了解热门手机、热门APP的真实地理位置分布。 市场价值: 可以清晰识别出各个运营商在某一区域的信号强度,为运营商提供才考价值; 掌握用户使用APP的习惯; 掌握APP使用的地理位置分布; 掌握热门APP流量的地理位置分布; 掌握热门手机的地理位置分布。 |
《企业级360°全方位用户画像》 (电商) |
1、标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群; 2、标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式; 3、标签标签是构建用户画像的基础,会产生两类用户画像,即个人用户画像和群体画像。个人画像,也叫360度用户视图,用于用户精准互动和一对一服务,销售和运营等操作实务指导为主。群体画像是群体行为分析,群体行为洞察有利于做趋势分析、产品规划、营销决策等层面的工作。 |
1.数据迁移工具Sqoop ; 2.分布式存储和计算平台Hadoop ; 3.机器学习库Spark MLlib; 4.SQL on Hadoop方案Spark SQL ; 5.准实时计算Spark Streaming; 6.分布式NoSQL数据库HBase ; 7.分布式索引和全文检索工具Solr Cloud; 8.工作流调度引擎Oozie。 |
可掌握的核心能力: 通过Sqoop迁移业务数据到HBase ; 基于数据内容确定业务场景并使用SparkMLlib建模; 建立标签及其规则关联算法模型 ; 确定标签更新周期生成Oozie的定时工作流执行; YARN执行作业完成后写入画像结果数据到HBase和Solr ; 通过RestAPI查询Solr并实时生成用户画像结果展示; 标签的分类; 组合标签的创建和RFM模型使用; 可解决的现实问题: 用户画像是大数据应用的底层核心的服务,例如:推荐、营销、千人千面、个性化推荐和精准营销等应用都依赖于用户画像服务; 通过对用户进行画像,实现不同用户的个性化服务,提高企业的营收。 市场价值: 使用比较广泛,在企业里面,基本只要有大数据平台,就会有基础服务用户画像; 此项目可以举一反三,应用到其他的行业里面,如:金融、电信和航空等; 行业绝对领先的大数据项目实战。 |
备注:该课程大纲仅供参考,实际课程内容可能在授课过程中发生更新或变化,具体授课内容最终以各班级课表为准。
每晚对学员当天知识的吸收程度、老师授课内容难易程度进行评分,老师会根据学员反馈进行分析,对学员吸收情况调整授课内容、课程节奏,最终让每位学员都可以跟上班级学习的整体节奏。
为每个就业班都安排了一名优秀的技术指导老师,不管是白天还是晚自习时间,随时解答学员问题,进一步巩固和加强课上知识。
为了能辅助学员掌握所学知识,黑马程序员自主研发了6大学习系统,包括教学反馈系统、学习难易和吸收分析系统、学习测试系统、在线作业系统、学习任务手册、学员综合能力评定分析等。
末位辅导队列的学员,将会得到重点关心。技术辅导老师会在学员休息时间,针对学员的疑惑进行知识点梳理、答疑、辅导。以确保知识点掌握上没有一个学员掉队,真正落实不抛弃,不放弃任何一个学员。
从学员学习中的心态调整,到生活中的困难协助,从课上班级氛围塑造到课下多彩的班级活动,班主任360度暖心鼓励相伴。
小到五险一金的解释、面试礼仪的培训;大到500强企业面试实训及如何针对性地制定复习计划,帮助学员拿到高薪Offer。