图书介绍

大数据挑战与NoSQL数据库技术2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

陆嘉恒编著著
出版社：北京：电子工业出版社
ISBN：9787121196607
出版时间：2013
标注页数：424页
文件大小：91MB
文件页数：441页
主题词：数据处理；数据库系统

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：084e51f7690f037e6b171c10e02b8126

下载说明

大数据挑战与NoSQL数据库技术PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章概论1

1.1 引子2

1.2 大数据挑战3

1.3 大数据的存储和管理5

1.3.1 并行数据库5

1.3.2 NoSQL数据管理系统6

1.3.3 NewSQL数据管理系统8

1.3.4 云数据管理11

1.4 大数据的处理和分析11

1.5 小结13

参考文献13

理论篇16

第2章数据一致性理论16

2.1 CAP理论17

2.2 数据一致性模型21

2.3 ACID与BASE22

2.4 数据一致性实现技术23

2.4.1 Quorum系统NRW策略23

2.4.2 两阶段提交协议24

2.4.3 时间戳策略27

2.4.4 Paxos30

2.4.5 向量时钟38

2.5 小结43

参考文献43

第3章数据存储模型45

3.1 总论46

3.2 键值存储48

3.2.1 Redis49

3.2.2 Dynamo49

3.3 列式存储50

3.3.1 Bigtable51

3.3.2 Cassandra与HBase51

3.4 文档存储52

3.4.1 MongoDB53

3.4.2 CouchDB53

3.5 图形存储54

3.5.1 Neo4j55

3.5.2 GraphDB56

3.6 小、结56

参考文献56

第4章数据分区与放置策略58

4.1 分区的意义59

4.1.1 为什么要分区59

4.1.2 分区的优点60

4.2 范围分区61

4.3 列表分区62

4.4 哈希分区63

4.5 三种分区的比较64

4.6 放置策略64

4.6.1 一致性哈希算法65

4.6.2 容错性与可扩展性分析66

4.6.3 虚拟节点68

4.7 小结69

参考文献69

第5章海量数据处理方法70

5.1 MapReduce简介71

5.2 MapReduce数据流72

5.3 MapReduce数据处理75

5.3.1 提交作业76

5.3.2 初始化作业78

5.3.3 分配任务78

5.3.4 执行任务79

5.3.5 更新任务执行进度和状态80

5.3.6 完成作业81

5.4 Dryad简介81

5.4.1 DFS Cosmos介绍82

5.4.2 Dryad执行引擎84

5.4.3 DryadLINQ解释引擎86

5.4.4 DryadLINQ编程88

5.5 Dryad数据处理步骤90

5.6 MapReduce vs Dryad92

5.7 小结94

参考文献95

第6章数据复制与容错技术96

6.1 海量数据复制的作用和代价97

6.2 海量数据复制的策略97

6.2.1 Dynamo的复制策略97

6.2.2 CouchDB的复制策略99

6.2.3 PNUTS的复制策略99

6.3 海量数据的故障发现与处理101

6.3.1 Dynamo的故障发现与处理101

6.3.2 CouchDB的故障发现与处理103

6.3.3 PNUTS的故障发现与处理103

6.4 小结104

参考文献104

第7章数据压缩技术105

7.1 数据压缩原理106

7.1.1 数据压缩的定义106

7.1.2 数据为什么可以压缩107

7.1.3 数据压缩分类107

7.2 传统压缩技术[1]108

7.2.1 霍夫曼编码108

7.2.2 LZ77算法109

7.3 海量数据带来的3V挑战112

7.4 Oracle混合列压缩113

7.4.1 仓库压缩114

7.4.2 存档压缩114

7.5 Google数据压缩技术115

7.5.1 寻找长的重复串115

7.5.2 压缩算法116

7.6 Hadoop压缩技术118

7.6.1 LZO简介118

7.6.2 LZO原理[5]119

7.7 小结121

参考文献121

第8章缓存技术122

8.1 分布式缓存简介123

8.1.1 分布式缓存的产生123

8.1.2 分布式缓存的应用123

8.1.3 分布式缓存的性能125

8.1.4 衡量可用性的标准125

8.2 分布式缓存的内部机制125

8.2.1 生命期机制126

8.2.2 一致性机制126

8.2.3 直读与直写机制129

8.2.4 查询机制130

8.2.5 事件触发机制130

8.3 分布式缓存的拓扑结构130

8.3.1 复制式拓扑131

8.3.2 分割式拓扑131

8.3.3 客户端缓存拓扑131

8.4 小结132

参考文献132

系统篇134

第9章 key-value数据库134

9.1 key-value模型综述134

9.2 Redis135

9.2.1 Redis概述135

9.2.2 Redis下载与安装135

9.2.3 Redis入门操作136

9.2.4 Redis在业内的应用143

9.3 Voldemort143

9.3.1 Voldemort概述143

9.3.2 Voldemort下载与安装144

9.3.3 Voldemort配置145

9.3.4 Voldemort开发介绍[3]147

9.4 小结149

参考文献149

第10章 Column-Oriented数据库150

10.1 Column-Oriented数据库简介151

10.2 Bigtable数据库151

10.2.1 Bigtable数据库简介151

10.2.2 Bigtable数据模型152

10.2.3 Bigtable基础架构154

10.3 Hypertable数据库157

10.3.1 Hypertable简介157

10.3.2 Hypertable安装157

10.3.3 Hypertable架构163

10.3.4 Hypertable中的基本概念和原理164

10.3.5 Hyperable的查询168

10.4 Cassandra数据库175

10.4.1 Cassandra简介175

10.4.2 Cassandra配置175

10.4.3 Cassandra数据库的连接177

10.4.4 Cassandra集群机制180

10.4.5 Cassandra的读／写机制182

10.5 小结183

参考文献183

第11章文档数据库185

11.1 文档数据库简介186

11.2 CouchDB数据库186

11.2.1 CouchDB简介186

11.2.2 CouchDB安装188

11.2.3 CouchDB入门189

11.2.4 CouchDB查询200

11.2.5 CouchDB的存储结构207

11.2.6 SQL和CouchDB209

11.2.7 分布式环境中的CouchDB210

11.3 MongoDB数据库211

11.3.1 MongoDB简介211

11.3.2 MongoDB的安装212

11.3.3 MongoDB入门215

11.3.4 MongoDB索引224

11.3.5 SQL与MongoDB226

11.3.6 MapReduce与MongoDB229

11.3.7 MongoDB与CouchDB对比234

11.4 小结236

参考文献237

第12章图存数据库238

12.1 图存数据库的由来及基本概念239

12.1.1 图存数据库的由来239

12.1.2 图存数据库的基本概念239

12.2 Neo4j图存数据库240

12.2.1 Neo4j简介240

12.2.2 Neo4i使用教程241

12.2.3 分布式Neo4j——Neo4j HA251

12.2.4 Neo4j工作机制及优缺点浅析256

12.3 GraphDB258

12.3.1 GraphDB简介258

12.3.2 GraphDB的整体架构260

12.3.3 GraphDB的数据模型264

12.3.4 GraphDB的安装266

12.3.5 GraphDB的使用268

12.4 OrientDB276

12.4.1 背景276

12.4.2 OrientDB是什么276

12.4.3 OrientDB的原理及相关技术277

12.4.4 Windows下OrientDB的安装与使用282

12.4.5 相关Web应用286

12.5 三种图存数据库的比较288

12.5.1 特征矩阵288

12.5.2 分布式模式及应用比较289

12.6 小结289

参考文献290

第13章基于Hadoop的数据管理系统291

13.1 Hadoop简介292

13.2 HBase293

13.2.1 HBase体系结构293

13.2.2 HBase数据模型297

13.2.3 HBase的安装和使用298

13.2.4 HBase与RDBMS303

13.3 Pig304

13.3.1 Pigr的安装和使用304

13.3.2 Pig Latin语言306

13.3.3 Pig实例311

13.4 Hive315

13.4.1 Hive的数据存储316

13.4.2 Hive的元数据存储316

13.4.3 安装Hive317

13.4.4 HiveQL简介318

13.4.5 Hive的网络接口（WebUI）328

13.4.6 Hive的JDBC接口328

13.5 小结330

参考文献331

第14章 NewSQL数据库332

14.1 NewSQL数据库简介333

14.2 MySQL Cluster333

14.2.1 概述334

14.2.2 MySQL Cluster的层次结构336

14.2.3 MySQL Cluster的优势和应用337

14.2.4 海量数据处理中的sharding技术339

14.2.5 单机环境下MySQL Cluster的安装343

14.2.6 MySQL Cluster的分布式安装与配置指导348

14.3 VoltDB350

14.3.1 传统关系数据库与VoltDB351

14.3.2 VoltDB的安装与配置351

14.3.3 VoltDB组件354

14 3 4 Hello World355

14.3.5 使用Generate脚本361

14.3.6 Eclipse集成开发362

14.4 小结365

参考文献365

第15章分布式缓存系统366

15.1 Memcached缓存技术367

15.1.1 背景介绍367

15.1.2 Memcached缓存技术的特点368

15.1.3 Memcached安装[3]374

15.1.4 Memcached中的数据操作375

15.1.5 Memcached的使用376

15.2 Microsoft Velocity分布式缓存系统378

15.2.1 Microsoft Velocity简介378

15.2.2 数据分类379

15.2.3 Velocity核心概念380

15.2.4 Velocity安装382

15.2.5 一个简单的Velocity客户端应用385

15.2.6 扩展型和可用性387

15.3 小结388

参考文献388

应用篇392

第16章企业应用392

16.1 Instagram393

16.1.1 Instagram如何应对数据的急剧增长395

16.1.2 Instagram的数据分片策略398

16.2 Facebook对Hadoop以及HBase的应用400

16.2.1 工作负载类型401

16.2.2 为什么采用Apache Hadoop和HBase403

16.2.3 实时HDFS405

16.2.4 Hadoop HBase的实现409

16.3 淘宝大数据解决之道411

16.3.1 淘宝数据分析412

16.3.2 淘宝大数据挑战413

16.3.3 淘宝OceanBase数据库414

16.3.4 淘宝将来的工作422

16.4 小结423

参考文献423