21.3. 爬虫原理¶
21.3.1. 两种爬虫流程¶
1.多页面爬取
2.跨页面爬取
多页面爬取流程¶
1.手动翻页并观察各网页的URL构成特点,构造出所有页面的URL存入列表
2.根据URL列表依次循环取出URL
3.定义爬虫函数
4.循环完毕,结束爬虫程序
跨页面的爬取流程¶
1.定义爬取函数爬取列表页的所有专题的URL
2.将专题的URL存入列表中(种子URL)
3.定义爬取详细页数据函数
4.进入专题详细页面爬取详细页数据
5.存储数据,循环完毕,结束爬虫程序
21.3.2. 爬虫的三大库¶
request Beautifulsoup、lxml
参考文献: