这篇教程Python爬取csnd文章并转为PDF文件写得很实用,希望能帮到您。 本篇文章流程(爬虫基本思路): 数据来源分析 (只有当你找到数据来源的时候, 才能通过代码实现) - 确定需求(要爬取的内容是什么?)爬取CSDN文章内容 保存pdf
- 通过开发者工具进行抓包分析 分析数据从哪里来的?
代码实现过程: - 发送请求 对于文章列表页面发送请求
- 获取数据 获取网页源代码
- 解析数据 文章的url 以及 文章标题
- 发送请求 对于文章详情页url地址发送请求
- 获取数据 获取网页源代码
- 解析数据 提取文章标题 / 文章内容
- 保存数据 把文章内容保存成html文件
- 把html文件转成pdf文件
- 多页爬取
1.导入模块import requests # 数据请求 发送请求 第三方模块 pip install requestsimport parsel # 数据解析模块 第三方模块 pip install parselimport os # 文件操作模块import re # 正则表达式模块import pdfkit # pip install pdfkit
2.创建文件夹 |