图书介绍

Spark SQL内核剖析2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

朱锋，张韶全，黄明著著
出版社：北京：电子工业出版社
ISBN：9787121343148
出版时间：2018
标注页数：276页
文件大小：34MB
文件页数：290页
主题词：数据处理软件

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：1c5a4d5b68e64741f87996cd9dc641b6

下载说明

Spark SQL内核剖析PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章 Spark SQL背景1

1.1大数据与Spark系统1

1.2关系模型与SQL语言3

1.3Spark SQL发展历程4

1.4本章小结5

第2章 Spark基础知识介绍6

2.1RDD编程模型6

2.2DataFrame与Dataset9

2.3本章小结10

第3章 Spark SQL执行全过程概述11

3.1从SQL到RDD：一个简单的案例11

3.2重要概念14

3.2.1InternalRow体系14

3.2.2TreeNode体系15

3.2.3Expression体系17

3.3内部数据类型系统20

3.4本章小结21

第4章 Spark SQL编译器Parser22

4.1DSL工具之ANTLR简介22

4.1.1基于ANTLR4的计算器23

4.1.2访问者模式25

4.2SparkSqlParser之AstBuilder28

4.3常见SQL生成的抽象语法树概览30

4.4本章小结33

第5章 Spark SQL逻辑计划（LogicalPlan）34

5.1Spark SQL逻辑计划概述34

5.2LogicalPlan简介35

5.2.1QueryPlan概述35

5.2.2LogicalPlan基本操作与分类37

5.2.3LeafNode类型的LogicalPlan38

5.2.4UnaryNode类型的LogicalPlan39

5.2.5BinaryNode类型的LogicalPlan40

5.2.6其他类型的LogicalPlan41

5.3AstBuilder机制：Unresolved LogicalPlan生成41

5.4Analyzer机制：Analyzed LogicalPlan生成46

5.4.1Catalog体系分析46

5.4.2Rule体系48

5.4.3Analyzed LogicalPlan生成过程50

5.5Spark SQL优化器Optimizer56

5.5.1Optimizer概述56

5.5.2Optimizer规则体系57

5.5.3Optimized LogicalPlan的生成过程62

5.6本章小结64

第6章 Spark SQL物理计划（PhysicalPlan）66

6.1Spark SQL物理计划概述66

6.2SparkPlan简介67

6.2.1LeafExecNode类型68

6.2.2UnaryExecNode类型69

6.2.3BinaryExecNode类型70

6.2.4其他类型的SparkPlan70

6.3Metadata与Metrics体系71

6.4Partitioning与Ordering体系72

6.4.1Distribution与Partitioning的概念72

6.4.2SparkPlan的常用分区排序操作76

6.5SparkPlan生成77

6.5.1物理计划Strategy体系79

6.5.2常见Strategy分析81

6.6执行前的准备83

6.6.1PlanSubqueries规则84

6.6.2EnsureRequirements规则85

6.7本章小结89

第7章 Spark SQL之Aggregation实现90

7.1Aggregation执行概述90

7.1.1文法定义90

7.1.2聚合语句Unresolved LogicalPlan生成92

7.1.3从逻辑算子树到物理算子树93

7.2聚合函数（AggregateFunction）97

7.2.1聚合缓冲区与聚合模式（AggregateMode）97

7.2.2DeclarativeAggregate聚合函数100

7.2.3ImperativeAggregate聚合函数101

7.2.4Typed ImperativeAggregate聚合函数101

7.3聚合执行102

7.3.1执行框架AggregationIterator103

7.3.2基于排序的聚合算子SortAggregateExec104

7.3.3基于Hash的聚合算子HashAggregateExec105

7.4窗口（Window）函数108

7.4.1窗口函数定义与简介109

7.4.2窗口函数相关表达式111

7.4.3窗口函数的逻辑计划阶段与物理计划阶段113

7.4.4窗口函数的执行117

7.5多维分析120

7.5.1OLAP多维分析背景120

7.5.2Spark SQL多维查询121

7.5.3多维分析LogicalPlan阶段123

7.5.4多维分析PhysicalPlan与执行126

7.6本章小结128

第8章 Spark SQL之Join实现129

8.1Join查询概述129

8.2文法定义与抽象语法树130

8.3Join查询逻辑计划133

8.3.1从AST到Unresolved LogicalPlan133

8.3.2从Unresolve LogicalPlan到Analyzed LogicalPlan136

8.3.3从Analyzed LogicalPlan到Optimized LogicalPlan137

8.4Join查询物理计划140

8.4.1Join物理计划的生成140

8.4.2Join物理计划的选取141

8.5Join查询执行143

8.5.1Join执行基本框架143

8.5.2BroadcastJoinExec执行机制144

8.5.3ShuffledHashJoinExec执行机制145

8.5.4SortMergeJoinExec执行机制148

8.6本章小结155

第9章 Tungsten技术实现156

9.1内存管理与二进制处理156

9.1.1Spark内存管理基础156

9.1.2Tungsten内存管理优化基础174

9.1.3Tungsten内存优化应用179

9.2缓存敏感计算（Cache-aware computation）185

9.3动态代码生成（Code generation）188

9.3.1漫谈代码生成188

9.3.2Janino编译器实践190

9.3.3基本（表达式）代码生成191

9.3.4全阶段代码生成（WholeStageCodegen）196

9.4本章小结211

第10章 Spark SQL连接Hive212

10.1Spark SQL连接Hive概述212

10.2Hive相关的规则和策略213

10.2.1HiveSessionCatalog体系213

10.2.2Analyzer之Hive-Specific分析规则216

10.2.3SparkPlanner之Hive-Specific转换策略217

10.2.4Hive相关的任务执行218

10.3Spark SQL与Hive数据类型219

10.3.1Hive数据类型与SerDe框架219

10.3.2DataTypeTolnspector与Data Wrapping220

10.3.3lnspectorToDataType与Data Unwrapping221

10.4Hive UDF管理机制223

10.5Spark Thrift Server实现225

10.5.1Service体系227

10.5.2Operation与OperationManager228

10.5.3Session与SessionManager232

10.5.4Authentication安全认证管理234

10.5.5Spark Thrift Server执行流程235

10.6本章小结239

第11章 Spark SQL开发与实践240

11.1腾讯大数据平台（TDW）简介240

11.2腾讯大数据平台SQL引擎（TDW-SQL-Engine）241

11.2.1SQL-Engine背景与演化历程241

11.2.2SQL-Engine整体架构242

11.3TDW-Spark SQL开发与优化244

11.3.1业务运行支撑框架244

11.3.2新功能开发案例248

11.3.3性能优化开发案例256

11.4业务实践经验与教训261

11.4.1Spark SQL集群管理的经验261

11.4.2Spark SQL业务层面调优263

11.4.3SQL写法的“陷阱”268

11.5本章小结271

总结272

参考文献273