21.3. 爬虫原理

21.3.1. 两种爬虫流程

1.多页面爬取
2.跨页面爬取

多页面爬取流程

1.手动翻页并观察各网页的URL构成特点,构造出所有页面的URL存入列表
2.根据URL列表依次循环取出URL
3.定义爬虫函数
4.循环完毕,结束爬虫程序

跨页面的爬取流程

1.定义爬取函数爬取列表页的所有专题的URL
2.将专题的URL存入列表中(种子URL)
3.定义爬取详细页数据函数
4.进入专题详细页面爬取详细页数据
5.存储数据,循环完毕,结束爬虫程序

21.3.2. 爬虫的三大库

request  Beautifulsoup、lxml

参考文献:

https://www.jianshu.com/p/d75e9268583b

https://www.cnblogs.com/derek1184405959/p/8449682.html