您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 | 知识图谱 |

自学教程:Python爬取csnd文章并转为PDF文件

51自学网 2022-02-21 10:36:49
  python
这篇教程Python爬取csnd文章并转为PDF文件写得很实用,希望能帮到您。

本篇文章流程(爬虫基本思路):

数据来源分析 (只有当你找到数据来源的时候, 才能通过代码实现)

  • 确定需求(要爬取的内容是什么?)爬取CSDN文章内容 保存pdf
  • 通过开发者工具进行抓包分析 分析数据从哪里来的?

代码实现过程:

  • 发送请求 对于文章列表页面发送请求
  • 获取数据 获取网页源代码
  • 解析数据 文章的url 以及 文章标题
  • 发送请求 对于文章详情页url地址发送请求
  • 获取数据 获取网页源代码
  • 解析数据 提取文章标题 / 文章内容
  • 保存数据 把文章内容保存成html文件
  • 把html文件转成pdf文件
  • 多页爬取

1.导入模块

import requests # 数据请求 发送请求 第三方模块 pip install requestsimport parsel # 数据解析模块 第三方模块 pip install parselimport os # 文件操作模块import re # 正则表达式模块import pdfkit # pip install pdfkit

2.创建文件夹

filename = 'pdf//' # 文件名字filename_1 = 'html//'if not os.path.exists(filename): #如果没有这个文件夹的话
Python制作简易聊天器,搭建UDP网络通信模型
Python的输入,输出和标识符详解
万事OK自学网:51自学网_软件自学网_CAD自学网自学excel、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。