Python实现文件下载的核心代码解析

2025-3-1

Python 文件下载核心代码深度解析：从基础到进阶

文件下载是网络应用中的常见功能，无论是下载图片、文档、视频还是其他类型的数据，其背后都有一套核心的原理和实现逻辑。Python 作为一门功能强大的编程语言，提供了丰富的库和模块来简化文件下载过程。本文将深入探讨 Python 实现文件下载的核心代码，从最基本的原理到各种高级技巧，逐一解析，帮助读者全面掌握文件下载的精髓。

一、文件下载的基本原理

在深入代码之前，我们先来了解一下文件下载的基本原理。从宏观上看，文件下载的过程可以概括为以下几个步骤：

建立连接： 客户端（例如我们的 Python 程序）向服务器（存储目标文件的服务器）发起请求，建立网络连接。这个连接通常基于 HTTP 或 HTTPS 协议。
发送请求： 客户端向服务器发送一个 HTTP 请求，请求中包含了要下载文件的 URL、请求方法（通常是 GET）、请求头（可能包含身份验证信息、User-Agent 等）等信息。
服务器响应： 服务器接收到请求后，会根据请求内容进行处理。如果文件存在且允许下载，服务器会返回一个 HTTP 响应。响应中包含了状态码（例如 200 OK 表示成功）、响应头（包含了文件类型、大小等信息）以及响应体（文件的实际内容）。
接收数据： 客户端接收服务器返回的响应，并从响应体中逐块读取数据。
写入文件： 客户端将接收到的数据写入本地文件，直到所有数据接收完毕，文件下载完成。

这个过程看似简单，但其中涉及了网络协议、数据传输、错误处理等多个方面。Python 的强大之处在于，它将这些复杂的细节封装在库中，让我们能够用简洁的代码实现文件下载。

二、使用 `requests` 库实现基本下载

requests 是 Python 中最常用的 HTTP 请求库，它以简单易用而著称。使用 requests 下载文件非常直观：

```python
import requests

def download_file(url, filename):
"""
使用 requests 库下载文件。

Args:
url: 要下载文件的 URL。
filename: 保存文件的本地路径和名称。
"""
try:
response = requests.get(url, stream=True)
response.raise_for_status() # 检查请求是否成功

with open(filename, 'wb') as f:
  for chunk in response.iter_content(chunk_size=8192):
    f.write(chunk)

print(f"文件下载成功，已保存至 {filename}")

except requests.exceptions.RequestException as e:
print(f"下载失败: {e}")

示例用法

download_file('https://www.example.com/image.jpg', 'image.jpg')
```

代码解析：

import requests: 导入 requests 库。
requests.get(url, stream=True):
- 向指定的 url 发送 GET 请求。
- stream=True 参数非常重要。它告诉 requests 不要立即下载整个文件，而是以流的形式获取响应内容。这对于下载大文件至关重要，可以避免一次性加载整个文件到内存中导致内存溢出。
response.raise_for_status(): 检查请求是否成功。如果服务器返回的状态码不是 2xx（表示成功），这个方法会抛出一个异常。
with open(filename, 'wb') as f::
- 以二进制写入模式（'wb'）打开一个本地文件。
- 使用 with 语句可以确保文件在使用完毕后自动关闭，即使发生异常也能保证文件资源被正确释放。
for chunk in response.iter_content(chunk_size=8192)::
- response.iter_content() 方法以迭代器的形式返回响应体的内容。
- chunk_size 参数指定了每次迭代读取的数据块大小（以字节为单位）。这里设置为 8192 字节（8KB），是一个常用的值，可以根据实际情况调整。
f.write(chunk): 将每次读取到的数据块写入文件。
try...except: 捕获可能发生的网络请求异常（例如连接错误、超时等），并打印错误信息。

这段代码实现了基本的文件下载功能，能够处理大多数情况。但它还有一些可以改进的地方，例如：

没有显示下载进度。
没有处理断点续传。
没有处理重定向。

接下来，我们将逐步完善代码，添加这些高级功能。

三、显示下载进度

为了让用户了解下载进度，我们可以添加一个进度条。tqdm 是一个流行的 Python 进度条库，它可以轻松地集成到我们的代码中：

```python
import requests
from tqdm import tqdm
import os

def download_file_with_progress(url, filename):
"""
使用 requests 和 tqdm 库下载文件，并显示进度条。

Args:
  url: 要下载文件的 URL。
  filename: 保存文件的本地路径和名称。
"""
try:
    response = requests.get(url, stream=True)
    response.raise_for_status()

    total_size_in_bytes = int(response.headers.get('content-length', 0))
    block_size = 8192  # 8KB
    progress_bar = tqdm(total=total_size_in_bytes, unit='iB', unit_scale=True)

    with open(filename, 'wb') as file:
        for data in response.iter_content(block_size):
            progress_bar.update(len(data))
            file.write(data)
    progress_bar.close()

    if total_size_in_bytes != 0 and progress_bar.n != total_size_in_bytes:
        print("错误，下载过程中出现问题")
    else:
        print(f"文件下载成功，已保存至 {filename}")

except requests.exceptions.RequestException as e:
    print(f"下载失败: {e}")

获取文件大小

def get_file_size(filepath):
if os.path.exists(filepath):
return os.path.getsize(filepath)
else:
return 0

示例

file_url = "https://www.example.com/large_file.zip"
save_path = "large_file.zip"

检查文件是否已存在且完整

existing_file_size = get_file_size(save_path)

假设服务器支持断点续传，获取文件总大小

response = requests.head(file_url) # HEAD 请求只获取响应头
total_size = int(response.headers.get('Content-Length', 0))

if existing_file_size < total_size:
# 文件未下载完成，开始或继续下载
download_file_with_progress(file_url, save_path)
else:
print("文件已存在且完整，无需下载")
```

代码解析：

from tqdm import tqdm: 导入 tqdm 库。
total_size_in_bytes = int(response.headers.get('content-length', 0)):
- 从响应头中获取 content-length 字段，它表示文件的总大小（以字节为单位）。
- 如果响应头中没有 content-length 字段，则将其设置为 0。
progress_bar = tqdm(total=total_size_in_bytes, unit='iB', unit_scale=True):
- 创建一个 tqdm 进度条对象。
- total 参数设置为文件的总大小。
- unit='iB' 表示单位为字节。
- unit_scale=True 表示自动将字节数转换为 KB、MB 等更易读的单位。
progress_bar.update(len(data)): 在每次写入数据块后，更新进度条的进度。len(data) 表示当前数据块的大小。
progress_bar.close(): 下载完成后，关闭进度条。
if total_size_in_bytes != 0 and progress_bar.n != total_size_in_bytes: 检查下载是否完整。如果文件总大小不为 0，且进度条的当前值不等于总大小，则说明下载过程中出现了问题。

现在，运行这段代码，你将看到一个漂亮的进度条，实时显示下载进度。

四、实现断点续传

断点续传是指从上次下载中断的地方继续下载，而不是重新下载整个文件。这对于下载大文件非常有用，可以节省时间和带宽。实现断点续传的关键在于利用 HTTP 请求头中的 Range 字段。

```python
import requests
import os
from tqdm import tqdm

def download_file_resumable(url, filename):
"""
使用 requests 库下载文件，支持断点续传。

Args:
  url: 要下载文件的 URL。
  filename: 保存文件的本地路径和名称。
"""
try:
    # 检查文件是否已存在
    if os.path.exists(filename):
        # 获取已下载的文件大小
        headers = {'Range': f'bytes={os.path.getsize(filename)}-'}
        mode = 'ab'  # 追加模式
    else:
        headers = {}
        mode = 'wb'  # 写入模式

    response = requests.get(url, headers=headers, stream=True)
    response.raise_for_status()

    total_size_in_bytes = int(response.headers.get('content-length', 0))

    # 确保 Content-Length 可用, 否则无法使用tqdm
    if total_size_in_bytes == 0:
        print("警告：服务器未提供 Content-Length，无法显示进度条。")
        with open(filename, mode) as file:
            for data in response.iter_content(8192):
                file.write(data)
        print(f"文件下载成功，已保存至 {filename}")
        return

    # 如果服务器支持断点续传，Content-Length 会是剩余的大小而不是完整大小。
    # 需要加上已下载的大小来获得完整大小。

    if(os.path.exists(filename)):
        total_size_in_bytes += os.path.getsize(filename)

    block_size = 8192
    progress_bar = tqdm(total=total_size_in_bytes, unit='iB', unit_scale=True, initial= os.path.getsize(filename) if os.path.exists(filename) else 0)

    with open(filename, mode) as file:
        for data in response.iter_content(block_size):
            progress_bar.update(len(data))
            file.write(data)
    progress_bar.close()

    if total_size_in_bytes != 0 and progress_bar.n != total_size_in_bytes:
        print("错误，下载过程中出现问题")
    else:
        print(f"文件下载成功，已保存至 {filename}")
except requests.exceptions.RequestException as e:
    print(f"下载失败: {e}")

```

代码解析：

if os.path.exists(filename):: 检查文件是否已存在。
headers = {'Range': f'bytes={os.path.getsize(filename)}-'}:
- 如果文件已存在，则构造一个 Range 请求头。
- Range 头的格式为 bytes=<start>-<end>，其中 <start> 是起始字节位置，<end> 是结束字节位置（可选）。
- 这里我们只指定了 <start>，表示从已下载的文件大小处继续下载。
mode = 'ab': 如果文件已存在，则以追加模式（'ab'）打开文件，将新下载的数据追加到文件末尾。
response = requests.get(url, headers=headers, stream=True): 发送带有 Range 请求头的 GET 请求。
initial= os.path.getsize(filename) if os.path.exists(filename) else 0: 这是给 tqdm 用的参数，如果有已下载部分，需要将进度条的初始值设置为已下载的大小。

现在，即使下载过程中断，你也可以再次运行这段代码，它会从上次中断的地方继续下载，而不会重新开始。

五、处理重定向

有时，我们请求的 URL 可能会被重定向到另一个 URL。例如，短链接服务就会将短链接重定向到原始链接。requests 库默认会自动处理重定向，但我们也可以手动控制重定向的行为。

```python
import requests

def download_file_with_redirect(url, filename):
"""
使用 requests 库下载文件，手动处理重定向。

Args:
  url: 要下载文件的 URL。
  filename: 保存文件的本地路径和名称。
"""
try:
    response = requests.get(url, stream=True, allow_redirects=False)
    response.raise_for_status()

    if response.status_code in (301, 302, 307, 308):
        redirect_url = response.headers['Location']
        print(f"正在重定向到 {redirect_url}")
        download_file_with_redirect(redirect_url, filename)  # 递归调用
    else:
      #正常下载流程, 为了节省篇幅，省略与download_file_resumable函数相同部分的代码。
      pass
except requests.exceptions.RequestException as e:
    print(f"下载失败: {e}")

```

代码解析：

allow_redirects=False: 禁用 requests 库的自动重定向功能。
if response.status_code in (301, 302, 307, 308):: 检查响应状态码是否为重定向状态码（301、302、307、308）。
redirect_url = response.headers['Location']: 从响应头中获取重定向后的 URL。
download_file_with_redirect(redirect_url, filename): 递归调用 download_file_with_redirect 函数，使用重定向后的 URL 继续下载。

通过手动处理重定向，我们可以更好地控制下载过程，例如记录重定向历史、限制重定向次数等。

六、其他高级技巧

除了上面介绍的技巧外，还有一些高级技巧可以进一步优化文件下载过程：

多线程/多进程下载： 对于大文件，可以使用多线程或多进程将文件分成多个部分同时下载，加快下载速度。
异步下载： 使用 aiohttp 等异步库可以实现非阻塞下载，提高程序的并发性能。
自定义请求头： 可以根据需要自定义请求头，例如添加 User-Agent、Cookie 等信息。
处理流式数据： 对于无法预知大小的流式数据（例如视频流），可以使用 response.iter_lines() 或 response.iter_bytes() 方法逐行或逐字节读取数据。
使用连接池： requests 库内部使用了连接池，可以复用已建立的连接，减少连接建立的开销。
处理网络超时：可以为 requests请求添加 timeout 参数，设置请求超时时间，避免无限等待。
SSL 证书验证: 如果要下载的文件使用了 HTTPS 协议，并且使用了自签名证书，可能需要设置 verify 参数来禁用 SSL 证书验证（不推荐）或指定自定义证书。

七、总结与展望: 更上一层楼

本文详细解析了 Python 实现文件下载的核心代码，从基本原理到各种高级技巧，涵盖了文件下载的方方面面。我们学习了如何使用 requests 库进行基本下载、显示下载进度、实现断点续传、处理重定向等。通过这些知识，你已经能够编写出功能强大、稳定可靠的文件下载程序。
掌握了这些内容，你就已经能够应对绝大多数的文件下载场景了。
当然，文件下载是一个涉及面很广的主题，还有很多更高级的技术和应用场景等待我们去探索。例如：

更复杂的认证机制： 除了基本的用户名/密码认证，还有 OAuth、JWT 等更复杂的认证机制。
更细粒度的控制： 可以通过更底层的网络库（例如 socket）来实现更细粒度的网络控制。
与其他应用的集成： 可以将文件下载功能与其他应用（例如 Web 框架、GUI 程序）集成。

希望本文能够帮助你深入理解 Python 文件下载的原理和实现，为你的编程之路添砖加瓦。不断学习和实践，你将能够掌握更多高级技巧，成为一名出色的 Python 开发者。

作者：admin

链接：https://hostlocvps.com/2025/03/01/python%e5%ae%9e%e7%8e%b0%e6%96%87%e4%bb%b6%e4%b8%8b%e8%bd%bd%e7%9a%84%e6%a0%b8%e5%bf%83%e4%bb%a3%e7%a0%81%e8%a7%a3%e6%9e%90/

文章版权归作者所有，未经允许请勿转载。

THE END

如何利用GitHub提升Swift编程效率

<<上一篇

最强视频播放工具：VLC for Android体验报告

下一篇>>

Python实现文件下载的核心代码解析

Python 文件下载核心代码深度解析：从基础到进阶

一、 文件下载的基本原理

二、 使用 requests 库实现基本下载

示例用法

三、 显示下载进度

获取文件大小

示例

检查文件是否已存在且完整

假设服务器支持断点续传，获取文件总大小

四、 实现断点续传

五、 处理重定向

六、其他高级技巧

七、总结与展望: 更上一层楼

一、文件下载的基本原理

二、使用 `requests` 库实现基本下载

三、显示下载进度

四、实现断点续传

五、处理重定向