您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 | 知识图谱 |

自学教程:python爬虫今日热榜数据到txt文件的源码

51自学网 2021-10-30 22:55:30
  python
这篇教程python爬虫今日热榜数据到txt文件的源码写得很实用,希望能帮到您。

今日热榜:https://tophub.today/

在这里插入图片描述

爬取数据及保存格式:

在这里插入图片描述

爬取后保存为.txt文件:

在这里插入图片描述

部分内容:

在这里插入图片描述
在这里插入图片描述

源码及注释:

import requestsfrom bs4 import BeautifulSoupdef download_page(url):  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}  try:    r = requests.get(url,timeout = 30,headers=headers)    return r.text  except:    return "please inspect your url or setup"def get_content(html,tag):  output = """  排名:{}/n  标题:{} /n  热度:{}/n  链接:{}/n  ------------/n"""  output2 = """平台:{}  榜单类型:{}  最近更新:{}/n------------/n"""  num=[]  title=[]  hot=[]  href=[]  soup = BeautifulSoup(html, 'html.parser')  con = soup.find('div',attrs={'class':'bc-cc'})  con_list = con.find_all('div', class_="cc-cd")  for i in con_list:     author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字    time = i.find('div', class_='i-h').get_text() # 获取最近更新    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接     gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型     save_txt(tag,output2.format(author, gender,time))    for k in link:      href.append(k['href'])      num.append(k.find('span', class_='s').get_text())      title.append(str(k.find('span', class_='t').get_text()))      hot.append(str(k.find('span', class_='e').get_text()))    for h in range(len(num)):       save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))def save_txt(tag,*args):  for i in args:    with open(tag+'.txt', 'a', encoding='utf-8') as f:      f.write(i)def main():  #   综合  科技  娱乐  社区    购物   财经  page=['news','tech','ent','community','shopping','finance']  for tag in page:    url = 'https://tophub.today/c/{}'.format(tag)    html = download_page(url)    get_content(html,tag)if __name__ == '__main__':  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索51zixue.net以前的文章或继续浏览下面的相关文章希望大家以后多多支持51zixue.net!


如何用Python和JS实现的Web SSH工具
详解Python中openpyxl模块基本用法
万事OK自学网:51自学网_软件自学网_CAD自学网自学excel、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。