图书介绍
解析Python网络爬虫 核心技术、Scrapy框架、分布式爬虫2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- 黑马程序员编著 著
- 出版社: 北京:中国铁道出版社
- ISBN:9787113246785
- 出版时间:2018
- 标注页数:263页
- 文件大小:35MB
- 文件页数:273页
- 主题词:软件工具-程序设计
PDF下载
下载说明
解析Python网络爬虫 核心技术、Scrapy框架、分布式爬虫PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 初识爬虫1
1.1 爬虫产生背景1
1.2 爬虫的概念2
1.3 爬虫的用途2
1.4 爬虫的分类3
1.4.1 通用爬虫和聚焦爬虫3
1.4.2 累积式爬虫和增量式爬虫4
1.4.3 表层爬虫和深层爬虫4
小结5
习题5
第2章 爬虫的实现原理和技术6
2.1 爬虫实现原理6
2.1.1 通用爬虫工作原理6
2.1.2 聚焦爬虫工作原理8
2.2 爬虫爬取网页的详细流程9
2.3 通用爬虫中网页的分类10
2.4 通用爬虫相关网站文件10
2.4.1 robots.txt文件11
2.4.2 Sitemap.xml文件12
2.5 防爬虫应对策略12
2.6 选择Python做爬虫的原因14
2.7 案例——使用八爪鱼工具爬取第一个网页14
小结21
习题21
第3章 网页请求原理23
3.1 浏览网页过程23
3.1.1 统一资源定位符24
3.1.2 计算机域名系统25
3.2 HTTP网络请求原理25
3.2.1 分析浏览器显示完整网页的过程26
3.2.2 客户端HTTP请求格式26
3.2.3 服务端HTTP响应格式30
3.3 HTTP抓包工具Fiddler32
3.3.1 Fiddler工作原理32
3.3.2 Fiddler下载安装32
3.3.3 Fiddler界面详解33
3.3.4 Fiddler爬取HTTPS设置35
3.3.5 使用Fiddler捕获Chrome的会话37
小结40
习题40
第4章 爬取网页数据42
4.1 urllib库概述42
4.2 快速使用urllib爬取网页43
4.2.1 快速爬取一个网页43
4.2.2 分析urlopen()方法44
4.2.3 使用HTTPResponse对象45
4.2.4 构造Request对象46
4.3 使用urllib实现数据传输47
4.3.1 URL编码转换47
4.3.2 处理GET请求48
4.3.3 处POST请求49
4.4 添加特定Headers——请求伪装51
4.5 代理服务器52
4.5.1 简单的自定义opener52
4.5.2 设置代理服务器53
4.6 超时设置54
4.7 常见的网络异常55
4.7.1 URLError异常和捕获55
4.7.2 HttpError异常和捕获55
4.8 更人性化的requests库56
4.8.1 requests库概述56
4.8.2 requests库初体验56
4.8.3 发送请求58
4.8.4 返回响应58
4.9 案例——使用urllib库爬取百度贴吧59
小结61
习题61
第5章 数据解析63
5.1 网页数据和结构63
5.1.1 网页数据格式63
5.1.2 网页结构64
5.2 数据解析技术64
5.3 正则表达式65
5.4 XPath与lxml解析库66
5.4.1 XPath概述66
5.4.2 XPath语法67
5.4.3 XPath开发工具70
5.4.4 lxml库概述72
5.4.5 lxml库的基本使用75
5.5 Beautiful Soup77
5.5.1 Beautiful Soup概述77
5.5.2 构建BeautifulSoup对象78
5.5.3 通过操作方法进行解读搜索80
5.5.4 通过CSS选择器进行搜索83
5.6 JSONPath与json模块85
5.6.1 JSON概述85
5.6.2 JSON与XML比较86
5.6.3 json模块介绍87
5.6.4 json模块基本应用88
5.6.5 JSONPath简介90
5.6.6 JSONPath语法对比90
5.6.7 案例——获取拉勾网城市列表92
5.7 案例——解析腾讯社会招聘网站的职位信息94
5.7.1 明确爬虫爬取目标95
5.7.2 分析要解析的数据95
5.7.3 使用urllib库爬取社招网数据96
5.7.4 使用正则、lxml、bs4解析职位数据98
5.7.5 将数据保存到文件中103
小结104
习题104
第6章 并发下载106
6.1 多线程爬虫流程分析106
6.2 使用queue模块实现多线程爬虫107
6.2.1 queue(队列)模块简介107
6.2.2 Queue类概述109
6.3 协程实现并发爬取110
6.3.1 协程爬虫的流程分析111
6.3.2 第三方库gevent111
6.4 案例——三种技术采集和解析数据对比112
6.4.1 单线程实现112
6.4.2 多线程实现114
6.4.3 协程实现119
6.4.4 性能分析122
小结123
习题123
第7章 爬取动态内容124
7.1 动态网页介绍124
7.2 selenium和PhantomJS概述125
7.3 selenium和PhantomJS安装配置126
7.4 selenium和PhantomJS的基本应用128
7.4.1 入门操作128
7.4.2 定位UI元素133
7.4.3 鼠标动作链135
7.4.4 填充表单136
7.4.5 弹窗处理137
7.4.6 页面切换138
7.4.7 页面前进和后退138
7.4.8 获取页面Cookies138
7.4.9 页面等待138
7.5 案例——模拟豆瓣网站登录140
小结142
习题142
第8章 图像识别与文字处理145
8.1 OCR技术概述145
8.2 Tesseract引擎的下载和安装147
8.3 pytesseract和PIL库概述148
8.3.1 pytesseract库概述149
8.3.2 PIL库概述149
8.4 处理规范格式的文字150
8.4.1 读取图像中格式规范的文字151
8.4.2 对图片进行阈值过滤和降噪处理151
8.4.3 识别图像的中文字符153
8.5 处理验证码154
8.5.1 验证码分类154
8.5.2 简单识别图形验证码155
8.6 案例——识别图形验证码156
小结157
习题157
第9章 存储爬虫数据159
9.1 数据存储概述159
9.2 MongoDB数据库概述160
9.2.1 MongoDB的概念160
9.2.2 Windows平台安装MongoDB数据库160
9.2.3 比较MongoDB和MySQL的术语163
9.3 使用PyMongo库存储到数据库165
9.3.1 PyMongo的概念165
9.3.2 PyMongo的基本操作165
9.4 案例——存储网站的电影信息169
9.4.1 分析待爬取的网页169
9.4.2 通过urllib爬取全部页面169
9.4.3 通过bs4选取数据171
9.4.4 通过MongoDB存储电影信息172
小结173
习题173
第10章 初识爬虫框架Scrapy175
10.1 常见爬虫框架介绍175
10.2 Scrapy框架的架构179
10.3 Scrapy框架的运作流程180
10.4 安装Scrapy框架181
10.4.1 Windows 7系统下的安装181
10.4.2 Linux(Ubuntu)系统下的安装184
10.4.3 Mac OS系统下的安装185
10.5 Scrapy框架的基本操作186
10.5.1 新建一个Scrapy项目186
10.5.2 明确爬取目标187
10.5.3 制作Spiders爬取网页188
10.5.4 永久性存储数据193
10.5.5 Scrapy常用命令193
小结194
习题194
第11章 Scrapy终端与核心组件196
11.1 Scrapy shell——测试XPath表达式196
11.1.1 启用Scrapy shell196
11.1.2 使用Scrapy shell197
11.1.3 Scrapy shell使用示例198
11.2 Spiders——爬取和提取结构化数据200
11.3 Item Pipeline——后期处理数据201
11.3.1 自定义Item Pipeline201
11.3.2 完善之前的案例——item写入JSON文件202
11.4 Downloader Middlewares——防止反爬虫203
11.5 Settings——定制Scrapy组件206
11.6 案例——斗鱼App爬虫208
11.6.1 使用Fiddler爬取手机App的数据208
11.6.2 分析JSON文件的内容210
11.6.3 使用Scrapy爬取数据211
小结214
习题214
第12章 自动爬取网页的爬虫CrawlSpider216
12.1 初识爬虫类CrawlSpider216
12.2 CrawlSpider类的工作原理219
12.3 通过Rule类决定爬取规则221
12.4 通过LinkExtractor类提取链接222
12.5 案例——使用CrawlSpider爬取腾讯社会招聘网站223
小结228
习题228
第13章 Scrapy-Redis分布式爬虫230
13.1 Scrapy-Redis概述230
13.2 Scrapy-Redis的完整架构231
13.3 Scrapy-Redis的运作流程231
13.4 Scrapy-Redis的主要组件232
13.5 搭建Scrapy-Redis开发环境233
13.5.1 安装Scrapy-Redis233
13.5.2 安装和启动Redis数据库234
13.5.3 修改配置文件redis.conf239
13.6 分布式的部署242
13.6.1 分布式策略242
13.6.2 测试Slave端远程连接Master端243
13.7 Scrapy-Redis的基本使用245
13.7.1 创建Scrapy项目245
13.7.2 明确爬取目标246
13.7.3 制作Spider爬取网页247
13.7.4 执行分布式爬虫249
13.7.5 使用多个管道存储250
13.7.6 处理Redis数据库中的数据252
13.8 案例——使用分布式爬虫爬取百度百科网站253
13.8.1 创建Scrapy项目254
13.8.2 分析爬虫的目标255
13.8.3 制作Spider爬取网页257
13.8.4 执行爬虫260
小结262
习题262