图书介绍
Spark核心技术与高级应用2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- 于俊等著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111523543
- 出版时间:2016
- 标注页数:300页
- 文件大小:28MB
- 文件页数:308页
- 主题词:数据处理软件
PDF下载
下载说明
Spark核心技术与高级应用PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
基 础篇2
第1章 Spark简介2
1.1 什么是Spark2
1.1.1 概述3
1.1.2 Spark大数据处理框架3
1.1.3 Spark的特点4
1.1.4 Spark应用场景5
1.2 Spark的重要扩展6
1.2.1 Spark SQL和DataFrame6
1.2.2 Spark Streaming7
1.2.3 Spark MLlib和ML8
1.2.4 GraphX8
1.2.5 SparkR9
1.3 本章小结10
第2章 Spark部署和运行11
2.1 部署准备11
2.1.1 下载Spark11
2.1.2 编译Spark版本12
2.1.3 集群部署概述14
2.2 Spark部署15
2.2.1 Local模式部署16
2.2.2 Standalone模式部署16
2.2.3 YARN模式部署18
2.3 运行Spark应用程序19
2.3.1 Local模式运行Spark应用程序19
2.3.2 Standalone模式运行Spark应用程序20
2.3.3 YARN模式运行Spark22
2.3.4 应用程序提交和参数传递23
2.4 本章小结26
第3章 Spark程序开发27
3.1 使用Spark Shell编写程序27
3.1.1 启动Spark Shell28
3.1.2 加载text文件28
3.1.3 简单RDD操作28
3.1.4 简单RDD操作应用29
3.1.5 RDD缓存30
3.2 构建Spark的开发环境30
3.2.1 准备环境30
3.2.2 构建Spark的Eclipse开发环境31
3.2.3 构建Spark的IntelliJ IDEA开发环境32
3.3 独立应用程序编程40
3.3.1 创建SparkContext对象40
3.3.2 编写简单应用程序40
3.3.3 编译并提交应用程序40
3.4 本章小结43
第4章 编程模型44
4.1 RDD介绍44
4.1.1 RDD特征45
4.1.2 RDD依赖45
4.2 创建RDD47
4.2.1 集合(数组)创建RDD47
4.2.2 存储创建RDD48
4.3 RDD操作49
4.3.1 转换操作50
4.3.2 执行操作52
4.3.3 控制操作54
4.4 共享变量56
4.4.1 广播变量57
4.4.2 累加器57
4.5 本章小结58
第5章 作业执行解析59
5.1 基本概念59
5.1.1 Spark组件59
5.1.2 RDD视图60
5.1.3 DAG图61
5.2 作业执行流程62
5.2.1 基于Standalone模式的Spark架构62
5.2.2 基于YARN模式的Spark架构64
5.2.3 作业事件流和调度分析65
5.3 运行时环境67
5.3.1 构建应用程序运行时环境68
5.3.2 应用程序转换成DAG68
5.3.3 调度执行 DAG图70
5.4 应用程序运行实例71
5.5 本章小结72
第6章 Spark SQL与DataFrame73
6.1 概述73
6.1.1 Spark SQL发展74
6.1.2 Spark SQL架构74
6.1.3 Spark SQL特点76
6.1.4 Spark SQL性能76
6.2 DataFrame77
6.2.1 DataFrame和RDD的区别78
6.2.2 创建DataFrame78
6.2.3 DataFrame操作80
6.2.4 RDD转化为DataFrame82
6.3 数据源84
6.3.1 加载保存操作84
6.3.2 Parquet文件85
6.3.3 JSON数据集88
6.3.4 Hive表89
6.3.5 通过JDBC连接数据库91
6.3.6 多数据源整合查询的小例子92
6.4 分布式的SQL Engine93
6.4.1 运行Thrift JDBC/ODBC服务93
6.4.2 运行Spark SQL CLI94
6.5 性能调优94
6.5.1 缓存数据94
6.5.2 调优参数94
6.5.3 增加并行度95
6.6 数据类型95
6.7 本章小结96
第7章 深入了解Spark Streaming97
7.1 基础知识97
7.1.1 Spark Streaming工作原理98
7.1.2 DStream编程模型99
7.2 DStream操作100
7.2.1 Input DStream100
7.2.2 DStream转换操作102
7.2.3 DStream状态操作104
7.2.4 DStream输出操作106
7.2.5 缓存及持久化107
7.2.6 检查点108
7.3 性能调优109
7.3.1 优化运行时间109
7.3.2 设置合适的批次大小111
7.3.3 优化内存使用111
7.4 容错处理112
7.4.1 文件输入源112
7.4.2 基于Receiver的输入源112
7.4.3 输出操作113
7.5 一个例子113
7.6 本章小结115
第8章 Spark MLlib与机器学习116
8.1 机器学习概述116
8.1.1 机器学习分类117
8.1.2 机器学习算法117
8.2 Spark MLlib介绍118
8.3 Spark MLlib库119
8.3.1 MLlib数据类型120
8.3.2 MLlib的算法库与实例123
8.4 ML库142
8.4.1 主要概念143
8.4.2 算法库与实例145
8.5 本章小结147
第9章 GraphX图计算框架与应用148
9.1 概述148
9.2 Spark GraphX架构149
9.3 GraphX编程150
9.3.1 GraphX的图操作152
9.3.2 常用图算法161
9.4 应用场景164
9.4.1 图谱体检平台164
9.4.2 多图合并工具165
9.4.3 能量传播模型165
9.5 本章小结166
第10章 SparkR (R on Spark)167
10.1 概述167
10.1.1 SparkR介绍168
10.1.2 SparkR的工作原理168
10.1.3 R语言介绍169
10.1.4 R语言与其他语言的通信170
10.2 安装SparkR170
10.2.1 安装R语言与rJava171
10.2.2 SparkR的安装171
10.3 SparkR的运行与应用示例172
10.3.1 运行SparkR172
10.3.2 SparkR示例程序173
10.3.3 R的DataFrame操作方法175
10.3.4 SparkR的DataFrame183
10.4 本章小结186
实 战篇188
第11章 大数据分析系统188
11.1 背景188
11.2 数据格式189
11.3 应用架构189
11.4 业务实现190
11.4.1 流量、性能的实时分析190
11.4.2 流量、性能的统计分析192
11.4.3 业务关联分析193
11.4.4 离线报表分析195
11.5 本章小结199
第12章 系统资源分析平台200
12.1 业务背景200
12.1.1 业务介绍201
12.1.2 实现目标201
12.2 应用架构201
12.2.1 总体架构202
12.2.2 模块架构202
12.3 代码实现203
12.3.1 Kafka集群203
12.3.2 数据采集207
12.3.3 离线数据处理207
12.3.4 数据表现207
12.4 结果验证213
12.5 本章小结214
第13章 在Spark上训练LR模型215
13.1 逻辑回归简介215
13.2 数据格式216
13.3 MLlib中LR模型源码介绍217
13.3.1 逻辑回归分类器217
13.3.2 优化方法219
13.3.3 算法效果评估221
13.4 实现案例223
13.4.1 训练模型223
13.4.2 计算AUC223
13.5 本章小结224
第14章 获取二级邻居关系图225
14.1 理解PageRank225
14.1.1 初步理解PageRank225
14.1.2 深入理解PageRank227
14.2 PageRank算法基于Spark的实现228
14.3 基于PageRank的二级邻居获取232
14.3.1 系统设计232
14.3.2 系统实现232
14.3.3 代码提交命令235
14.4本章小结236
高 级篇238
第15章 调度管理238
15.1 调度概述238
15.1.1 应用程序间的调度239
15.1.2 应用程序中的调度241
15.2 调度器242
15.2.1 调度池243
15.2.2 Job调度流程243
15.2.3 调度模块245
15.2.4 Job的生与死249
15.3 本章小结253
第16章 存储管理254
16.1 硬件环境254
16.1.1 存储系统254
16.1.2 本地磁盘255
16.1.3 内存255
16.1.4 网络和CPU255
16.2 Storage模块256
16.2.1 通信层256
16.2.2 存储层258
16.3 Shuffle数据持久化261
16.4 本章小结263
第17章 监控管理264
17.1 Web界面264
17.2 Spark UI历史监控266
17.2.1 使用spark-server的原因266
17.2.2 配置spark-server266
17.3 监控工具269
17.3.1 Metrics工具269
17.3.2 其他工具271
17.4 本章小结272
第18章 性能调优273
18.1 文件的优化273
18.1.1 输入采用大文件273
18.1.2 lzo压缩处理274
18.1.3 Cache压缩275
18.2 序列化数据277
18.3 缓存278
18.4 共享变量278
18.4.1 广播变量279
18.4.2 累加器279
18.5 流水线优化280
18.6 本章小结280
扩 展篇282
第19章 Spark-jobserver实践282
19.1 Spark-jobserver是什么282
19.2 编译、部署及体验283
19.2.1 编译及部署283
19.2.2 体验286
19.3 Spark-jobserver程序实战288
19.3.1 创建步骤288
19.3.2 一些常见的问题289
19.4 使用场景:用户属性分布计算289
19.4.1 项目需求290
19.4.2 计算架构290
19.4.3 使用NamedRDD291
19.5 本章小结291
第20章 Spark Tachyon实战292
20.1 Tachyon文件系统292
20.1.1 文件系统概述293
20.1.2 HDFS和Tachyon294
20.1.3 Tachyon设计原理294
20.1.4 Tachyon特性295
20.2 Tachyon入门295
20.2.1 Tachyon部署295
20.2.2 Tachyon API297
20.2.3 在Spark上使用Tachyon298
20.3 容错机制299
20.4 本章小结300