SparkSQL极速入门 整合Kudu实现广告业务数据分析 | 完结

小七学习网,助您升职加薪,遇问题可联系:客服微信【1099252741】 备注:来自网站

大数据离线处理核心技术 初中级大数据工程师工作提升利器
以案例驱动,全面讲解Spark SQL大数据离线处理必备的知识点。使用Kudu整合Spark进行广告业务功能的实现,并针对已实现的需求代码进行调优;通过扩展Presto和大数据平台建设方面的相关内容,进一步提升技能。

大数据离线处理核心技术 初中级大数据工程师工作提升利器
以案例驱动,全面讲解Spark SQL大数据离线处理必备的知识点。使用Kudu整合Spark进行广告业务功能的实现,并针对已实现的需求代码进行调优;通过扩展Presto和大数据平台建设方面的相关内容,进一步提升技能。

〖课程目录〗:

  • 第1章 课程介绍&学习指南 试看2 节 | 13分钟
  • 本章会对这门课程进行说明并进行学习方法介绍。
  • 收起列表
    • 视频:1-1 课程导学 (12:07)试看
    • 图文:1-2 ***学前必读***(助你平稳踩坑,畅学无忧,课程学习与解决问题指南)
  • 第2章 为什么要学Spark21 节 | 149分钟
  • Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章节将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特性、环境部署、Spark与Hadoop的对比、Spark开发语言及运行模式等。
  • 收起列表
    • 视频:2-1 课程目录 (01:55)
    • 视频:2-2 MapReduce的槽点 (12:37)
    • 视频:2-3 Spark特性详解 (15:24)
    • 视频:2-4 Spark Stack (04:11)
    • 视频:2-5 OOTB环境的使用 (06:43)
    • 视频:2-6 JDK部署 (04:33)
    • 视频:2-7 Maven部署 (06:37)
    • 视频:2-8 IDEA部署 (01:40)
    • 视频:2-9 HDFS部署 (13:42)
    • 视频:2-10 YARN部署 (02:16)
    • 视频:2-11 Hive部署 (11:50)
    • 视频:2-12 Spark运行模式 (03:45)
    • 视频:2-13 使用IDEA和Maven开发第一个Spark应用程序 (15:32)
    • 视频:2-14 词频统计按照单词出现次数的降序排列 (05:10)
    • 视频:2-15 local模式下spark-shell的使用 (07:50)
    • 视频:2-16 local模式下使用spark-submit提交Spark应用程序 (06:51)
    • 视频:2-17 YARN模式下提交Spark应用程序 (08:32)
    • 视频:2-18 Standalone模式下提交Spark应用程序 (08:13)
    • 视频:2-19 Hadoop和Spark生态圈对比 (06:20)
    • 视频:2-20 Hadoop与Spark对比 (02:30)
    • 视频:2-21 Spark和Hadoop的相互协作 (02:21)
  • 第3章 Spark SQL快速入门 试看14 节 | 88分钟
  • Spark SQL面世已来,深受小伙伴们的喜爱,继续为Spark用户提供高性能SQL on Hadoop解决方案,还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从为什么要学习SQL/Spark SQL、SQL on Hadoop框架、Spark SQL概述、架构及快速入门,这几个角度进行展开讲解…
  • 收起列表
    • 视频:3-1 课程目录 (01:40)
    • 视频:3-2 为什么需要SQL (06:51)
    • 视频:3-3 SQL on Hadoop (14:52)
    • 视频:3-4 详解Spark SQL是什么以及常见误区解读 (10:02)
    • 视频:3-5 Spark SQL概述 (03:02)
    • 视频:3-6 为什么要学习Spark SQL (03:40)
    • 视频:3-7 Spark SQL架构 (07:00)
    • 视频:3-8 spark-shell使用详解 (09:04)
    • 视频:3-9 spark-sql使用详解并结合讲解Catalyst的执行过程 (09:16)
    • 视频:3-10 spark-shell启动流程分析之uname以及case匹配的使用 (07:18)试看
    • 视频:3-11 spark-shell启动流程分析之dirname和if的使用 (06:03)
    • 视频:3-12 spark-shell启动流程分析之传递参数详解 (03:54)
    • 视频:3-13 spark-shell启动流程分析之spark-submit (02:36)
    • 视频:3-14 spark-sql启动流程分析 (02:29)
  • 第4章 Spark SQL API编程12 节 | 96分钟
  • DataFrame&Dataset是Spark2.x中最核心的编程对象,Spark2.x中的子框架能够使用DataFrame或Dataset来进行数据的交互操作。本章将从DataFrame的概述、DataFrame对比RDD、DataFrame API操作等方面对DataFrame做详细的编程开发讲解。
  • 收起列表
    • 视频:4-1 课程目录 (02:05)
    • 视频:4-2 认知SparkSession (09:35)
    • 视频:4-3 了解SQLContext (05:59)
    • 视频:4-4 认识DataFrame (07:59)
    • 视频:4-5 DataFrame API基本使用 (13:17)
    • 视频:4-6 DataFrame中前N条的取值方式 (08:27)
    • 视频:4-7 通过实战案例学习DataFrame常用API (10:21)
    • 视频:4-8 Dataset概述及操作 (07:05)
    • 视频:4-9 DataFrame vs Dataset (06:46)
    • 视频:4-10 Interoperating with RDD概述 (04:38)
    • 视频:4-11 实现方式一 (11:07)
    • 视频:4-12 实现方式二 (07:58)
  • 第5章 Data Source API 试看11 节 | 70分钟
  • Spark SQL中的核心功能,可以使用Data Source API非常方便的对存储在不同系统上的不同格式的数据进行操作。本章将讲解如何使用Data Source API来操作text、json、Parquet、JDBC中的数据以及综合使用。
  • 收起列表
    • 视频:5-1 课程目录 (05:13)
    • 视频:5-2 Data Source概述 (04:58)试看
    • 视频:5-3 text数据源读写案例 (08:49)
    • 视频:5-4 SaveMode的使用详解 (05:25)
    • 视频:5-5 json数据源案例 (07:33)
    • 视频:5-6 Data Source API标准写法 (06:15)
    • 视频:5-7 Parquet数据源案例 (04:18)
    • 视频:5-8 Data Source格式转换 (03:15)
    • 视频:5-9 jdbc数据源案例 (10:42)
    • 视频:5-10 通过统一配置参数管理工程中使用到的参数 (12:53)
    • 作业:5-11 【讨论题】关于拉链表得思考
  • 第6章 整合Hive操作及函数9 节 | 59分钟
  • 如何使用Spark对接已有数据仓库Hive中的数据,这是在生产中常见的问题。本章将讲解如何使用Spark无缝对接Hive中已有数据进行处理,thriftserver的使用、以及如何使用Spark SQL中的内置函数以及自定义函数。
  • 收起列表
    • 视频:6-1 课程目录 (03:01)
    • 视频:6-2 Spark对接Hive的原理及实操 (09:23)
    • 视频:6-3 thriftserver&beeline的使用 (08:11)
    • 视频:6-4 使用代码连接Server (04:55)
    • 视频:6-5 Server模式vs例行作业模式(思考题) (04:12)
    • 视频:6-6 hive数据源案例 (09:00)
    • 视频:6-7 Spark SQL内置函数实战 (10:41)
    • 视频:6-8 Spark SQL自定义UDF实战 (09:25)
    • 作业:6-9 【讨论题】关于Spark ThriftServer的HA问题
  • 第7章 Kudu入门7 节 | 73分钟
  • 近两年,KUDU在大数据平台的应用越来越广泛,她是Cloudera开源的运行在Hadoop平台上的列式存储系统,能够为我们提供“fast analytics on fast data”。本章将从Kudu的核心概念、架构、部署、API操作以及Spark整合Kudu的使用展开讲解。…
  • 收起列表
    • 视频:7-1 课程目录 (01:28)
    • 视频:7-2 kudu概述&核心概念&架构 (21:30)
    • 视频:7-3 kudu部署 (14:10)
    • 视频:7-4 API操作之创建表 (10:28)
    • 视频:7-5 API操作之插入数据&删除表&数据查询 (10:00)
    • 视频:7-6 API操作之修改表数据及表名 (04:58)
    • 视频:7-7 Spark整合Kudu的读写操作 (10:01)
  • 第8章 基于Spark SQL和Kudu的广告业务项目实战(一)12 节 | 118分钟
  • 本章使用Spark SQL整合Kudu对广告业务项目进行统计分析操作。涉及到的过程有:项目架构、数据清洗、数据统计、结果入库、项目重构。通过本实战项目将Spark SQL和Kudu中的知识点融会贯通,达到举一反三的效果 。
  • 收起列表
    • 视频:8-1 课程目录 (02:08)
    • 视频:8-2 广告业务背景 (10:00)
    • 视频:8-3 项目需求 (02:47)
    • 视频:8-4 项目架构及数据处理流程 (22:04)
    • 视频:8-5 日志字段说明 (10:27)
    • 视频:8-6 需求一之IP规则库解析 (13:16)
    • 视频:8-7 需求一之使用API编程完成日志ip字段解析 (09:08)
    • 视频:8-8 需求一之使用SQL方式完成日志ip字段解析 (05:49)
    • 视频:8-9 需求一之ODS数据落地到Kudu (09:32)
    • 视频:8-10 需求一之落地到Kudu表重构 (09:31)
    • 视频:8-11 需求二功能实现 (13:20)
    • 视频:8-12 需求一二代码结构大重构 (09:04)
  • 第9章 基于Spark SQL和Kudu的广告业务项目实战(二)9 节 | 80分钟
  • 基于上一章节做更复杂维度的统计分析,作业的封装、调度。
  • 收起列表
    • 视频:9-1 课程目录 (02:02)
    • 视频:9-2 需求三之第一阶段统计功能实现 (18:17)
    • 视频:9-3 需求三之第二阶段统计功能实现 (03:56)
    • 视频:9-4 需求三之统计结果落地到Kudu (03:43)
    • 视频:9-5 需求四功能实现 (07:35)
    • 视频:9-6 通过参数传递到Spark作业重构代码并打包 (15:19)
    • 视频:9-7 将项目运行在服务器上 (14:22)
    • 视频:9-8 定时调度提交Spark作业到服务器运行 (10:00)
    • 视频:9-9 本章节小结 (03:47)
  • 第10章 Spark调优策略10 节 | 67分钟
  • Spark应用调优是一个在生产上或者面试中老生常谈的问题,本章节将从资源设置、广播变量、Shuffle、JVM引发的相关角度逐一展开讲解。
  • 收起列表
    • 视频:10-1 课程目录 (03:07)
    • 视频:10-2 调优之资源设置 (11:45)
    • 视频:10-3 广播变量在Spark中的使用一 (13:10)
    • 视频:10-4 广播变量在Spark中是使用二 (05:31)
    • 视频:10-5 广播变量思考题(重要) (02:42)
    • 视频:10-6 Shuffle调优 (07:34)
    • 视频:10-7 Spark与GC相关概念理解 (07:41)
    • 视频:10-8 JVM GC引起的问题调优 (07:32)
    • 视频:10-9 其他调优 (07:21)
    • 作业:10-10 【讨论题】关于数据倾斜的思考
  • 第11章 Presto初识8 节 | 53分钟
  • Preso也是当下用的非常多的一种SQL on Hadoop的解决方案。本章节将从Presto架构、API操作等角度出发,通过一个案例来进行综合演练。
  • 收起列表
    • 视频:11-1 课程目录 (02:35)
    • 视频:11-2 Presto是什么&能做什么&谁在使用它 (08:09)
    • 视频:11-3 Presto架构 (06:19)
    • 视频:11-4 Presto部署 (11:08)
    • 视频:11-5 整合MySQL Connector (08:11)
    • 视频:11-6 整合Hive Connector (04:36)
    • 视频:11-7 Presto整合多个Connector操作 (06:43)
    • 视频:11-8 Presto API操作 (05:17)
  • 第12章 云平台建设的思考11 节 | 59分钟
  • 本章将从如何建设大数据云平台的角度,涉及到数据平台的N个方面,是小伙伴以后进入大厂工作奠定基础,同时也会从Spark vs Flink的角度来为小伙伴们分析选型时的疑惑。
  • 收起列表
    • 视频:12-1 课程目录 (02:58)
    • 视频:12-2 大数据项目和平台的差异性对比 (06:59)
    • 视频:12-3 认知云平台能为我们提供的能力 (07:45)
    • 视频:12-4 大数据云平台功能架构 (09:52)
    • 视频:12-5 数据湖架构 (05:41)
    • 视频:12-6 数据存储和计算角度剖析 (07:57)
    • 视频:12-7 资源角度剖析 (05:25)
    • 视频:12-8 兼容性角度剖析 (03:54)
    • 视频:12-9 执行引擎和运行方式适配角度剖析 (02:46)
    • 视频:12-10 Spark和Flink的选择 (05:28)
    • 作业:12-11 【讨论题】关于小文件的思考

〖视频截图〗:

  • SparkSQL极速入门 整合Kudu实现广告业务数据分析

    SparkSQL极速入门 整合Kudu实现广告业务数据分析
免责声明: 1、本站信息来自网络,版权争议与本站无关 2、本站所有主题由该帖子作者发表,该帖子作者与本站享有帖子相关版权 3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和本站的同意 4、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责 5、用户所发布的一切软件的解密分析文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 6、您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 7、请支持正版软件、得到更好的正版服务。 8、如有侵权请立即告知本站(邮箱:1099252741@qq.com,备用微信:1099252741),本站将及时予与删除 9、本站所发布的一切破解补丁、注册机和注册信息及软件的解密分析文章和视频仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
上一篇 2022年6月19日 上午11:23
下一篇 2022年6月19日 上午11:24

小七学习网,助您升职加薪,遇问题可联系:客服微信【1099252741】 备注:来自网站

相关推荐

  • Go 开发者的涨薪通道,自主开发 PaaS 平台核心功能 | 更新至6章

    云原生已是毋庸置疑的技术发展趋势之一。PaaS作为云原生体系的核心架构层,正被越来越多的公司应用,PaaS工程师也成为企业招聘热门资源。Go开发者,正是PaaS工程师的主要人才来源。本课程将带领大家,结合Go微服务打造PaaS平台的核心业务(包括Pod,service,deplyment,Ingress,存储,监控,中间件,镜像市场等),帮助Go工程师探索PaaS开发,挖掘职业新可能。

    2022年10月12日
    205
  • 新版Nginx1.17体系化深度精讲 给开发和运维的刚需课程 | 完结

    新版Nginx体系化深度精讲,从青铜到王者的飞跃
    重点精讲反向代理、负载均衡,一门新手听得懂、老手有启发的刚需课
    本课程并非散列知识点的罗列,而是从基础应用到架构思维,从场景实践到性能优化,带你拥抱完备的Nginx生态。以反向代理和负载均衡这2种经典生产场景为蓝本,深入阐述,助你解决企业生产中的实际问题。

    2022年6月19日
    275
  • Django入门到进阶-适合Python小白的系统课程 | 完结

    从零掌握Django核心知识,搭建Python Web知识体系,一览Python Web全貌
    全面阐述Web开发的各个环节的知识点,掌握Django的基础知识,学习Web的相关扩展知识,学会开发C/S服务与apiserver服务;学习多方面非Django内置模块的配置开发方法;学习真正生产环境的服务器最终部署方案。

    2022年6月19日
    183
  • Java企业级电商项目架构 Tomcat集群与Redis分布式 | 完结

    Java服务端架构演进课程,晋级中高级工程师的必杀技能
    优秀的架构是演进出来的,本课程将手把手带你从项目架构到系统架构,从代码重构到源码原理解析不断演进,逐步提高你驾驭大项目的能力,让你的编程思维和架构能力得到双重提升,助你迈好高级工程师之路的第一步!

    2022年6月19日
    255
  • 高并发 高性能 高可用 MySQL 实战 | 完结

    高并发,高性能,高可用MySQL 实战,从数据库原理到高性能实战一次性掌握
    从数据库原理到高性能实战,一次性掌握
    本课程从单点到集群,由浅入深,带大家深入理解MySQL原理,并学会多种不同的MySQL性能优化技巧,最终学会搭建高并发、高性能、高可用MySQL集群,从容应对实际工作中各种复杂的数据库问题。

    2022年6月19日
    261
  • Spring Cloud Alibaba微服务从入门到进阶 | 完结

    面向未来微服务:Spring Cloud Alibaba从入门到进阶
    一站式 体系化掌握Alibaba微服务完整生态
    Spring Cloud Alibaba是阿里微服务的解决方案与精华沉淀。学习本课程,能熟练掌握Spring Cloud Alibaba的使用和原理,并带领大家从0开始编写一个学习笔记微信小程序,在实践中深入理解微服务思想。

    2022年6月19日
    192
  • Spring Boot打造企业微信点餐系统(新版) 微服务时代必学 | 完结

    前后端分离/微信相关知识讲解/分布式session和锁/从0到1开发中小型企业级应用
    课程还原企业真实系统重构场景:微信点餐系统,带你体验敏捷式开发,尽可能低成本迭代升级,以最小的代价完成旧系统的升级改造。系统前后端分离的架构,让你更具备互联网工程师的气质,带你一步步设计并开发一个企业级Java应用。

    2022年6月19日
    218
  • Gradle3.0自动化项目构建技术精讲+实战 | 完结

    Gradle3.0自动化项目构建技术精讲+企业级案例实操
    大型公司项目主流技术 / 新一代构建工具 / 互联网公司面试必考点
    Gradle已全面运用于各大公司的 Android,Java等工程构建中,也是大型互联网公司面试的必考点。本课程将通过多个企业级实战案例,让你完整掌握Gradle,高效使用Gradle进行构建脚本的编写,解决构建过程中遇到的大部分难题。

    2022年6月19日
    247
  • 2022升级,百度大牛带你结合实践重学C++|2022年|19章完结

    从学习角度看,C++是一门“见效慢”的语言;学习曲线陡峭,语言本身复杂。但,如果你想了解很多编程语言的思想源泉,想要一窥大型企业级开发工程的思路,想开发别人做不了的高性能程序,那C++就是你的好伙伴。

    2022年9月20日
    187
  • 遇问题可联系 / 客服微信【1099252741】
  • 新版Springboot3.0打造能落地的高并发仿12306售票系统 | 更新至8章

    慕课网明星讲师“甲蛙”全新力作:一套市面稀缺的,手把手教你完整落地“高并发,高可用,高性能” 整体解决方案实战课。课程以12306售票系统驱动教学,融合老师多年大厂超大型项目架构设计与实战经验,带你从架构设计到具体场景方案落地,真正驾驭超高并发场景下的各种疑难问题,成为高薪抢手人才。

    2023年4月5日
    142