21.3. 爬虫原理 ¶

21.3.1. 两种爬虫流程 ¶

1.多页面爬取
2.跨页面爬取

手动翻页并观察各网页的URL构成特点，构造出所有页面的URL存入列表
根据URL列表依次循环取出URL
定义爬虫函数
循环完毕，结束爬虫程序

定义爬取函数爬取列表页的所有专题的URL
将专题的URL存入列表中（种子URL）
定义爬取详细页数据函数
进入专题详细页面爬取详细页数据
存储数据，循环完毕，结束爬虫程序

request Beautifulsoup、lxml

参考文献：