图书介绍
Spark SQL内核剖析2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- 朱锋,张韶全,黄明著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121343148
- 出版时间:2018
- 标注页数:276页
- 文件大小:34MB
- 文件页数:290页
- 主题词:数据处理软件
PDF下载
下载说明
Spark SQL内核剖析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 Spark SQL背景1
1.1大数据与Spark系统1
1.2关系模型与SQL语言3
1.3Spark SQL发展历程4
1.4本章小结5
第2章 Spark基础知识介绍6
2.1RDD编程模型6
2.2DataFrame与Dataset9
2.3本章小结10
第3章 Spark SQL执行全过程概述11
3.1从SQL到RDD:一个简单的案例11
3.2重要概念14
3.2.1InternalRow体系14
3.2.2TreeNode体系15
3.2.3Expression体系17
3.3内部数据类型系统20
3.4本章小结21
第4章 Spark SQL编译器Parser22
4.1DSL工具之ANTLR简介22
4.1.1基于ANTLR4的计算器23
4.1.2访问者模式25
4.2SparkSqlParser之AstBuilder28
4.3常见SQL生成的抽象语法树概览30
4.4本章小结33
第5章 Spark SQL逻辑计划(LogicalPlan)34
5.1Spark SQL逻辑计划概述34
5.2LogicalPlan简介35
5.2.1QueryPlan概述35
5.2.2LogicalPlan基本操作与分类37
5.2.3LeafNode类型的LogicalPlan38
5.2.4UnaryNode类型的LogicalPlan39
5.2.5BinaryNode类型的LogicalPlan40
5.2.6其他类型的LogicalPlan41
5.3AstBuilder机制:Unresolved LogicalPlan生成41
5.4Analyzer机制:Analyzed LogicalPlan生成46
5.4.1Catalog体系分析46
5.4.2Rule体系48
5.4.3Analyzed LogicalPlan生成过程50
5.5Spark SQL优化器Optimizer56
5.5.1Optimizer概述56
5.5.2Optimizer规则体系57
5.5.3Optimized LogicalPlan的生成过程62
5.6本章小结64
第6章 Spark SQL物理计划 (PhysicalPlan)66
6.1Spark SQL物理计划概述66
6.2SparkPlan简介67
6.2.1LeafExecNode类型68
6.2.2UnaryExecNode类型69
6.2.3BinaryExecNode类型70
6.2.4其他类型的SparkPlan70
6.3Metadata与Metrics体系71
6.4Partitioning与Ordering体系72
6.4.1Distribution与Partitioning的概念72
6.4.2SparkPlan的常用分区排序操作76
6.5SparkPlan生成77
6.5.1物理计划Strategy体系79
6.5.2常见Strategy分析81
6.6执行前的准备83
6.6.1PlanSubqueries规则84
6.6.2EnsureRequirements规则85
6.7本章小结89
第7章 Spark SQL之Aggregation实现90
7.1Aggregation执行概述90
7.1.1文法定义90
7.1.2聚合语句Unresolved LogicalPlan生成92
7.1.3从逻辑算子树到物理算子树93
7.2聚合函数(AggregateFunction)97
7.2.1聚合缓冲区与聚合模式(AggregateMode)97
7.2.2DeclarativeAggregate聚合函数100
7.2.3ImperativeAggregate聚合函数101
7.2.4Typed ImperativeAggregate聚合函数101
7.3聚合执行102
7.3.1执行框架AggregationIterator103
7.3.2基于排序的聚合算子SortAggregateExec104
7.3.3基于Hash的聚合算子HashAggregateExec105
7.4窗口(Window)函数108
7.4.1窗口函数定义与简介109
7.4.2窗口函数相关表达式111
7.4.3窗口函数的逻辑计划阶段与物理计划阶段113
7.4.4窗口函数的执行117
7.5多维分析120
7.5.1OLAP多维分析背景120
7.5.2Spark SQL多维查询121
7.5.3多维分析LogicalPlan阶段123
7.5.4多维分析PhysicalPlan与执行126
7.6本章小结128
第8章 Spark SQL之Join实现129
8.1Join查询概述129
8.2文法定义与抽象语法树130
8.3Join查询逻辑计划133
8.3.1从AST到Unresolved LogicalPlan133
8.3.2从Unresolve LogicalPlan到Analyzed LogicalPlan136
8.3.3从Analyzed LogicalPlan到Optimized LogicalPlan137
8.4Join查询物理计划140
8.4.1Join物理计划的生成140
8.4.2Join物理计划的选取141
8.5Join查询执行143
8.5.1Join执行基本框架143
8.5.2BroadcastJoinExec执行机制144
8.5.3ShuffledHashJoinExec执行机制145
8.5.4SortMergeJoinExec执行机制148
8.6本章小结155
第9章 Tungsten技术实现156
9.1内存管理与二进制处理156
9.1.1Spark内存管理基础156
9.1.2Tungsten内存管理优化基础174
9.1.3Tungsten内存优化应用179
9.2缓存敏感计算(Cache-aware computation)185
9.3动态代码生成(Code generation)188
9.3.1漫谈代码生成188
9.3.2Janino编译器实践190
9.3.3基本(表达式)代码生成191
9.3.4全阶段代码生成(WholeStageCodegen)196
9.4本章小结211
第10章 Spark SQL连接Hive212
10.1Spark SQL连接Hive概述212
10.2Hive相关的规则和策略213
10.2.1HiveSessionCatalog体系213
10.2.2Analyzer之Hive-Specific分析规则216
10.2.3SparkPlanner之Hive-Specific转换策略217
10.2.4Hive相关的任务执行218
10.3Spark SQL与Hive数据类型219
10.3.1Hive数据类型与SerDe框架219
10.3.2DataTypeTolnspector与Data Wrapping220
10.3.3lnspectorToDataType与Data Unwrapping221
10.4Hive UDF管理机制223
10.5Spark Thrift Server实现225
10.5.1Service体系227
10.5.2Operation与OperationManager228
10.5.3Session与SessionManager232
10.5.4Authentication安全认证管理234
10.5.5Spark Thrift Server执行流程235
10.6本章小结239
第11章 Spark SQL开发与实践240
11.1腾讯大数据平台(TDW)简介240
11.2腾讯大数据平台SQL引擎(TDW-SQL-Engine)241
11.2.1SQL-Engine背景与演化历程241
11.2.2SQL-Engine整体架构242
11.3TDW-Spark SQL开发与优化244
11.3.1业务运行支撑框架244
11.3.2新功能开发案例248
11.3.3性能优化开发案例256
11.4业务实践经验与教训261
11.4.1Spark SQL集群管理的经验261
11.4.2Spark SQL业务层面调优263
11.4.3SQL写法的“陷阱”268
11.5本章小结271
总结272
参考文献273