图书介绍

Spark核心技术与高级应用2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

于俊等著著
出版社：北京：机械工业出版社
ISBN：9787111523543
出版时间：2016
标注页数：300页
文件大小：28MB
文件页数：308页
主题词：数据处理软件

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：fe3bbbe74783c7b3bca6a2f683a4c35a

下载说明

Spark核心技术与高级应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

基础篇2

第1章 Spark简介2

1.1 什么是Spark2

1.1.1 概述3

1.1.2 Spark大数据处理框架3

1.1.3 Spark的特点4

1.1.4 Spark应用场景5

1.2 Spark的重要扩展6

1.2.1 Spark SQL和DataFrame6

1.2.2 Spark Streaming7

1.2.3 Spark MLlib和ML8

1.2.4 GraphX8

1.2.5 SparkR9

1.3 本章小结10

第2章 Spark部署和运行11

2.1 部署准备11

2.1.1 下载Spark11

2.1.2 编译Spark版本12

2.1.3 集群部署概述14

2.2 Spark部署15

2.2.1 Local模式部署16

2.2.2 Standalone模式部署16

2.2.3 YARN模式部署18

2.3 运行Spark应用程序19

2.3.1 Local模式运行Spark应用程序19

2.3.2 Standalone模式运行Spark应用程序20

2.3.3 YARN模式运行Spark22

2.3.4 应用程序提交和参数传递23

2.4 本章小结26

第3章 Spark程序开发27

3.1 使用Spark Shell编写程序27

3.1.1 启动Spark Shell28

3.1.2 加载text文件28

3.1.3 简单RDD操作28

3.1.4 简单RDD操作应用29

3.1.5 RDD缓存30

3.2 构建Spark的开发环境30

3.2.1 准备环境30

3.2.2 构建Spark的Eclipse开发环境31

3.2.3 构建Spark的IntelliJ IDEA开发环境32

3.3 独立应用程序编程40

3.3.1 创建SparkContext对象40

3.3.2 编写简单应用程序40

3.3.3 编译并提交应用程序40

3.4 本章小结43

第4章编程模型44

4.1 RDD介绍44

4.1.1 RDD特征45

4.1.2 RDD依赖45

4.2 创建RDD47

4.2.1 集合（数组）创建RDD47

4.2.2 存储创建RDD48

4.3 RDD操作49

4.3.1 转换操作50

4.3.2 执行操作52

4.3.3 控制操作54

4.4 共享变量56

4.4.1 广播变量57

4.4.2 累加器57

4.5 本章小结58

第5章作业执行解析59

5.1 基本概念59

5.1.1 Spark组件59

5.1.2 RDD视图60

5.1.3 DAG图61

5.2 作业执行流程62

5.2.1 基于Standalone模式的Spark架构62

5.2.2 基于YARN模式的Spark架构64

5.2.3 作业事件流和调度分析65

5.3 运行时环境67

5.3.1 构建应用程序运行时环境68

5.3.2 应用程序转换成DAG68

5.3.3 调度执行 DAG图70

5.4 应用程序运行实例71

5.5 本章小结72

第6章 Spark SQL与DataFrame73

6.1 概述73

6.1.1 Spark SQL发展74

6.1.2 Spark SQL架构74

6.1.3 Spark SQL特点76

6.1.4 Spark SQL性能76

6.2 DataFrame77

6.2.1 DataFrame和RDD的区别78

6.2.2 创建DataFrame78

6.2.3 DataFrame操作80

6.2.4 RDD转化为DataFrame82

6.3 数据源84

6.3.1 加载保存操作84

6.3.2 Parquet文件85

6.3.3 JSON数据集88

6.3.4 Hive表89

6.3.5 通过JDBC连接数据库91

6.3.6 多数据源整合查询的小例子92

6.4 分布式的SQL Engine93

6.4.1 运行Thrift JDBC／ODBC服务93

6.4.2 运行Spark SQL CLI94

6.5 性能调优94

6.5.1 缓存数据94

6.5.2 调优参数94

6.5.3 增加并行度95

6.6 数据类型95

6.7 本章小结96

第7章深入了解Spark Streaming97

7.1 基础知识97

7.1.1 Spark Streaming工作原理98

7.1.2 DStream编程模型99

7.2 DStream操作100

7.2.1 Input DStream100

7.2.2 DStream转换操作102

7.2.3 DStream状态操作104

7.2.4 DStream输出操作106

7.2.5 缓存及持久化107

7.2.6 检查点108

7.3 性能调优109

7.3.1 优化运行时间109

7.3.2 设置合适的批次大小111

7.3.3 优化内存使用111

7.4 容错处理112

7.4.1 文件输入源112

7.4.2 基于Receiver的输入源112

7.4.3 输出操作113

7.5 一个例子113

7.6 本章小结115

第8章 Spark MLlib与机器学习116

8.1 机器学习概述116

8.1.1 机器学习分类117

8.1.2 机器学习算法117

8.2 Spark MLlib介绍118

8.3 Spark MLlib库119

8.3.1 MLlib数据类型120

8.3.2 MLlib的算法库与实例123

8.4 ML库142

8.4.1 主要概念143

8.4.2 算法库与实例145

8.5 本章小结147

第9章 GraphX图计算框架与应用148

9.1 概述148

9.2 Spark GraphX架构149

9.3 GraphX编程150

9.3.1 GraphX的图操作152

9.3.2 常用图算法161

9.4 应用场景164

9.4.1 图谱体检平台164

9.4.2 多图合并工具165

9.4.3 能量传播模型165

9.5 本章小结166

第10章 SparkR （R on Spark）167

10.1 概述167

10.1.1 SparkR介绍168

10.1.2 SparkR的工作原理168

10.1.3 R语言介绍169

10.1.4 R语言与其他语言的通信170

10.2 安装SparkR170

10.2.1 安装R语言与rJava171

10.2.2 SparkR的安装171

10.3 SparkR的运行与应用示例172

10.3.1 运行SparkR172

10.3.2 SparkR示例程序173

10.3.3 R的DataFrame操作方法175

10.3.4 SparkR的DataFrame183

10.4 本章小结186

实战篇188

第11章大数据分析系统188

11.1 背景188

11.2 数据格式189

11.3 应用架构189

11.4 业务实现190

11.4.1 流量、性能的实时分析190

11.4.2 流量、性能的统计分析192

11.4.3 业务关联分析193

11.4.4 离线报表分析195

11.5 本章小结199

第12章系统资源分析平台200

12.1 业务背景200

12.1.1 业务介绍201

12.1.2 实现目标201

12.2 应用架构201

12.2.1 总体架构202

12.2.2 模块架构202

12.3 代码实现203

12.3.1 Kafka集群203

12.3.2 数据采集207

12.3.3 离线数据处理207

12.3.4 数据表现207

12.4 结果验证213

12.5 本章小结214

第13章在Spark上训练LR模型215

13.1 逻辑回归简介215

13.2 数据格式216

13.3 MLlib中LR模型源码介绍217

13.3.1 逻辑回归分类器217

13.3.2 优化方法219

13.3.3 算法效果评估221

13.4 实现案例223

13.4.1 训练模型223

13.4.2 计算AUC223

13.5 本章小结224

第14章获取二级邻居关系图225

14.1 理解PageRank225

14.1.1 初步理解PageRank225

14.1.2 深入理解PageRank227

14.2 PageRank算法基于Spark的实现228

14.3 基于PageRank的二级邻居获取232

14.3.1 系统设计232

14.3.2 系统实现232

14.3.3 代码提交命令235

14.4本章小结236

高级篇238

第15章调度管理238

15.1 调度概述238

15.1.1 应用程序间的调度239

15.1.2 应用程序中的调度241

15.2 调度器242

15.2.1 调度池243

15.2.2 Job调度流程243

15.2.3 调度模块245

15.2.4 Job的生与死249

15.3 本章小结253

第16章存储管理254

16.1 硬件环境254

16.1.1 存储系统254

16.1.2 本地磁盘255

16.1.3 内存255

16.1.4 网络和CPU255

16.2 Storage模块256

16.2.1 通信层256

16.2.2 存储层258

16.3 Shuffle数据持久化261

16.4 本章小结263

第17章监控管理264

17.1 Web界面264

17.2 Spark UI历史监控266

17.2.1 使用spark-server的原因266

17.2.2 配置spark-server266

17.3 监控工具269

17.3.1 Metrics工具269

17.3.2 其他工具271

17.4 本章小结272

第18章性能调优273

18.1 文件的优化273

18.1.1 输入采用大文件273

18.1.2 lzo压缩处理274

18.1.3 Cache压缩275

18.2 序列化数据277

18.3 缓存278

18.4 共享变量278

18.4.1 广播变量279

18.4.2 累加器279

18.5 流水线优化280

18.6 本章小结280

扩展篇282

第19章 Spark-jobserver实践282

19.1 Spark-jobserver是什么282

19.2 编译、部署及体验283

19.2.1 编译及部署283

19.2.2 体验286

19.3 Spark-jobserver程序实战288

19.3.1 创建步骤288

19.3.2 一些常见的问题289

19.4 使用场景：用户属性分布计算289

19.4.1 项目需求290

19.4.2 计算架构290

19.4.3 使用NamedRDD291

19.5 本章小结291

第20章 Spark Tachyon实战292

20.1 Tachyon文件系统292

20.1.1 文件系统概述293

20.1.2 HDFS和Tachyon294

20.1.3 Tachyon设计原理294

20.1.4 Tachyon特性295

20.2 Tachyon入门295

20.2.1 Tachyon部署295

20.2.2 Tachyon API297

20.2.3 在Spark上使用Tachyon298

20.3 容错机制299

20.4 本章小结300