您当前的位置：首页 > IT编程 > python
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \| 异常检测 \| Transformers \| 情感分类 \| 知识图谱 \|

自学教程：python 开心网和豆瓣日记爬取的小爬虫

51自学网 2021-10-30 22:36:37

python

这篇教程python 开心网和豆瓣日记爬取的小爬虫写得很实用，希望能帮到您。

项目地址：

https://github.com/aturret/python-crawler-exercise

用到了BeautifulSoup4，请先安装。

pip install beautifulsoup4

开心网日记爬取

kaixin001.py

使用

登录开心网，浏览器F12看http请求的header，获取自己的cookie。

填写cookie，要爬的日记的url，要爬的总次数。走你。

之后会生成HTML文件，格式是<:title>-<YYYYMMDDHHMMSS>

代码

# -*- coding: utf-8 -*-from urllib.request import urlopenimport urllib.requestimport urllib.parse #为了获取HTTP responsefrom bs4 import BeautifulSoup #BS4import string # 为了去掉空白字符import time # 防止被杀cookieimport unicodedata # 字符修正# 在这里放第一个链接urlx = '链接' #写你想爬的文def request(url):    global urlx #引用外面的链接作为全局变量，后面还会取下一个进行循环的# 使用urllib库提交cookie获取http响应    headers = {    'GET https':url,    'Host':' www.kaixin001.com',    'Connection':' keep-alive',    'Upgrade-Insecure-Requests':' 1',    'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',    'Accept':' application/json, text/javascript, */*; q=0.01',    'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',    'Cookie':' ', #改成自己的cookie，自己浏览器打开网站F12调试，自己找http请求的header    }    request = urllib.request.Request(url=url,headers=headers)    response = urllib.request.urlopen(request)    contents = response.read()# 使用BS4获得所有HTMLtag    bsObj = BeautifulSoup(contents,"html.parser")# 使用BS4的find函数得到想要的东西：标题、发表时间和博客正文    title = bsObj.find("b", attrs={"class":"f14"})    titleT = bsObj.find("b", attrs={"class":"f14"}).get_text() #开心网日记的标题是一个b标签，class属性值是f14    date = bsObj.find("span", attrs={"class":"c6"})    dateT = bsObj.find("span", attrs={"class":"c6"}).get_text() #开心网日记的发表时间是一个span标签，class属性值是c6    text = bsObj.find("div", attrs={"class":"textCont"})    textT = bsObj.find("div", attrs={"class":"textCont"}).get_text() #开心网日记的正文是一个div标签，class属性值是textCont  # 测试输出    print(title)    print(dateT)    # print(text)            # 生成HTML文件。这里直接用file.open()和file.write()了，也可以用jinja2之类的框架生成。    remove = string.whitespace+string.punctuation    table = str.maketrans(':','：',remove)    fileTitle=str(titleT).replace(':','：').replace('''"''','''“''')+'-'+str(dateT).translate(table).replace('发表','')+'.html'    print(fileTitle) #测试输出    f = open(fileTitle,'w',encoding="utf-8") #注意用utf-8编码写入，不然会因为一些旧博文采用的gbk编码不兼容而出问题。# 写入message    message = """    <html>    <head></head>    <body>    <h1>%s</h1>    <b>%s</b>    <br></br>    %s    </body>    </html>"""%(title.get_text(),date.get_text(),unicodedata.normalize('NFD',text.prettify()))    f.write(message)    f.close()    # webbrowser.open(fileTitle,new = 1)   # 定位下一篇博文的URL    nextUrl=bsObj.find("a",text="下一篇 >").attrs["href"] #下一篇是一个a标签，使用tag对象的attrs属性取href属性的值。开心网的日记系统里，如果到了最后一篇日记，下一篇的链接内容是第一篇日记，所以不用担心从哪篇日记开始爬。    # print(nextUrl)    urlx="http://www.kaixin001.com"+nextUrl    print(urlx)# 主循环，给爷爬num=328 #设定要爬多少次。其实也可以写个数组检测重复然后中止的啦，但我懒得弄了。for a in range(num):    request(urlx)        print('We get '+str(a+1)+' in '+str(num))    time.sleep(1) # 慢点，慢点。测试过程中出现了没有设置限制爬一半cookie失效了的情况，可能是太快了被搞了。

豆瓣日记爬取

douban.py

使用

登录豆瓣，浏览器F12看http请求的header，获取自己的cookie。

填写变量COOKIE，要爬的日记页的url。走你。

之后会生成HTML文件，格式是<:title>-<YYYYMMDDHHMMSS>

代码

# -*- coding: utf-8 -*-from urllib.request import urlopenimport urllib.requestimport urllib.parse #为了获取HTTP responsefrom bs4 import BeautifulSoup #BS4import string # 为了去掉空白字符import unicodedata # 字符修正import re# 在这里放链接url = '' #写你想爬的人 https://www.douban.com/people/xxx/notes 这样COOKIE = ''def request(urlx):    global url #引用外面的链接作为全局变量，后面还会取下一个进行循环的    global boolean    global COOKIE# 使用urllib库提交cookie获取http响应    headers = {    'GET https':urlx,    'Host':' www.douban.com',    'Connection':' keep-alive',    'Upgrade-Insecure-Requests':' 1',    'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',    'Accept':' application/json, text/javascript, */*; q=0.01',    'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',    'Cookie':COOKIE, #改成自己的cookie，自己浏览器打开网站F12调试，自己找http请求的header    }    request = urllib.request.Request(url=urlx,headers=headers)    response = urllib.request.urlopen(request)    contents = response.read()# 使用BS4获得所有HTMLtag    bsObj = BeautifulSoup(contents,"html.parser")# 使用BS4的find函数获取当前页面的所有日记链接    article = bsObj.find("div", attrs={"class":"article"})    titleSet = article.findAll("h3")    # print(titleSet)    for title in titleSet:        titleText = title.findAll("a",attrs={"class":"j a_unfolder_n"})        for link in titleText:            noteUrl = str(link.attrs["href"])            print(noteUrl)            requestSinglePage(noteUrl)    next = bsObj.find("a",text="后页>")    if next==None:        print("结束了")        boolean=1    else:        url = str(next.attrs["href"]).replace("&type=note","")        print(url)def requestSinglePage(urly):    global COOKIE    headers = {        'GET https':urly,        'Host':' www.douban.com',        'Connection':' keep-alive',        'Upgrade-Insecure-Requests':' 1',        'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',        'Accept':' application/json, text/javascript, */*; q=0.01',        'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',        'Cookie':COOKIE, #改成自己的cookie，自己浏览器打开网站F12调试，自己找http请求的header    }    request = urllib.request.Request(url=urly,headers=headers)    response = urllib.request.urlopen(request)    contents = response.read()    # 使用BS4获得所有HTMLtag    bsObj = BeautifulSoup(contents,"html.parser")# 使用BS4的find函数得到想要的东西：标题、发表时间和博客正文    title = bsObj.find("h1").get_text()    date = bsObj.find("span", attrs={"class":"pub-date"})    dateT = bsObj.find("span", attrs={"class":"pub-date"}).get_text()    text = bsObj.find("div", attrs={"id":"link-report"})    # textT = bsObj.find("div", attrs={"class":"textCont"}).get_text()# 测试输出    print(title)    print(dateT)    # 生成HTML文件。这里直接用file.open()和file.write()了，也可以用jinja2之类的框架生成。    remove = string.whitespace+string.punctuation # 去掉日期的标点符号    table = str.maketrans(':','：',remove)    fileTitle=str(title)+'-'+str(dateT).translate(table)+'.html'    print(fileTitle) #测试输出    f = open(fileTitle,'w',encoding="utf-8") #注意用utf-8编码写入，不然会因为一些旧博文采用的gbk编码不兼容而出问题。    # 写入message    message = """    <html>    <head></head>    <body>    <h1>%s</h1>    <b>%s</b>    <br></br>    %s    </body>    </html>"""%(title,dateT,unicodedata.normalize('NFD',text.prettify()))    f.write(message)    f.close()# 主循环，给爷爬boolean=0while(boolean==0):    a=1    request(url)    print('We finished page '+str(a)+' .')    a+=1

Roadmap

豆瓣四月份时候还有bug，手机端可以看到全部日记，半年隐藏无效。最近修好了。

不过现在的隐藏依然没有针对到具体的日记，或许可以想办法通过其他手段爬下来。

以上就是python 开心网日记爬取的示例步骤的详细内容，更多关于python 开心网日记爬取的资料请关注51zixue.net其它相关文章！

Python趣味挑战之实现简易版音乐播放器
python 爬取华为应用市场评论

自学教程：python 开心网和豆瓣日记爬取的小爬虫

目录

项目地址：

开心网日记爬取

使用

代码

豆瓣日记爬取

使用

代码

Roadmap