您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 | 知识图谱 |

自学教程:python 下载文件的几种方式分享

51自学网 2021-10-30 22:46:19
  python
这篇教程python 下载文件的几种方式分享写得很实用,希望能帮到您。

1 、一般同步下载

示例代码:

import requestsimport osdef downlaod(url, file_path):  headers = {    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"  }  r = requests.get(url=url, headers=headers)  with open(file_path, "wb") as f:    f.write(r.content)    f.flush()

2、 使用流式请求,requests.get方法的stream

默认情况下是stream的值为false,它会立即开始下载文件并存放到内存当中,倘若文件过大就会导致内存不足的情况,程序就会报错。
当把get函数的stream参数设置成True时,它不会立即开始下载,当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载,需要注意一点:文件没有下载之前,它也需要保持连接。

iter_content:一块一块的遍历要下载的内容iter_lines:一行一行的遍历要下载的内容

使用上面两个函数下载大文件可以防止占用过多的内存,因为每次只下载小部分数据。

示例代码:

3 、异步下载文件

由于request的请求是阻塞式的,所以要用aiohttp模块来发起请求。

示例代码:

import aiohttpimport asyncioimport osasync def handler(url, file_path):  headers = {    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"  }  async with aiohttp.ClientSession() as session:    r = await session.get(url=url, headers=headers)    with open(file_path, "wb") as f:      f.write(await r.read())      f.flush()      os.fsync(f.fileno())loop = asyncio.get_event_loop()loop.run_until_complete(handler(url, file_path))

4、 异步拆分下载文件

上面用的是一个协程下载一个文件,下面的方法是将文件分成几部分,每个部分用一个协程下载,最后再写入文件。

下面这个例子用的是流式写入,即把内容写入到磁盘里面。

import aiohttpimport asyncioimport timeimport osasync def consumer(queue):  option = await queue.get()  start = option["start"]  end = option["end"]  url = option["url"]  filename = option["filename"]  i = option["i"]  print(f"第{i}个任务开始运行")  async with aiohttp.ClientSession() as session:    headers = {"Range": f"bytes={start}-{end}"}    r = await session.get(url=url, headers=headers)    with open(filename, "rb+") as f:      f.seek(start)      while True:        chunk = await r.content.read(end - start)        if not chunk:          break        f.write(chunk)        f.flush()        os.fsync(f.fileno())        print(f"第{i}个任务正在写入中ing")    queue.task_done()    print(f"第{i}个任务写入成功")async def producer(url, headers, filename, queue, coro_num):  async with aiohttp.ClientSession() as session:    resp = await session.head(url=url, headers=headers)    file_size = int(resp.headers["content-length"])    # 创建一个文件    with open(filename, "wb") as f:      pass    part = file_size // coro_num    for i in range(coro_num):      start = part * i      if i == coro_num - 1:        end = file_size      else:        end = start + part      info = {        "start": start,        "end": end,        "url": url,        "filename": filename,        "i": i,      }      queue.put_nowait(info)async def main():  # 需要填的有url,filename,coro_num  url = ""  filename = ""  coro_num = 0  headers = {    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"  }  queue = asyncio.Queue(coro_num)  await producer(url, headers, filename, queue, coro_num)  task_list = []  for i in range(coro_num):    task = asyncio.create_task(consumer(queue))    task_list.append(task)  await queue.join()  for i in task_list:    i.cancel()  await asyncio.gather(*task_list)startt = time.time()loop = asyncio.get_event_loop()loop.run_until_complete(main())end = time.time() - starttprint(f"用了{end}秒")

5、注意

以上的示例都是介绍思路,程序并不健壮,健壮的程序需要加入错误捕获和错误处理。

以上就是python 下载文件的几种方式分享的详细内容,更多关于python 下载文件的资料请关注51zixue.net其它相关文章!


完美处理python与anaconda环境变量的冲突问题
python如何在word中存储本地图片
万事OK自学网:51自学网_软件自学网_CAD自学网自学excel、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。