Python Celery：构建高效的分布式应用

2025-3-16

Python Celery：构建高效的分布式应用

在现代应用开发中，处理耗时任务、异步操作和后台作业是至关重要的。如果这些任务阻塞了主应用程序线程，会导致用户界面无响应、性能下降，甚至应用程序崩溃。为了解决这些问题，分布式任务队列应运而生，而 Python Celery 正是其中最受欢迎和强大的工具之一。

本文将深入探讨 Celery 的核心概念、架构、用法、最佳实践，以及如何利用它构建高效、可扩展的分布式应用程序。

1. 什么是 Celery？

Celery 是一个开源的、灵活的、可靠的分布式任务队列，它允许您将耗时的任务从主应用程序线程中分离出来，异步地在后台执行。这些任务可以包括：

发送电子邮件： 在用户注册后发送欢迎邮件，或者发送密码重置邮件。
处理图像和视频： 调整图像大小、生成缩略图、转码视频。
生成报告： 定期生成复杂的报告或数据分析。
Web 抓取： 从网站上抓取数据并进行处理。
机器学习模型训练： 训练大型机器学习模型。
与第三方 API 集成： 执行需要长时间等待的 API 调用。

Celery 的主要特点包括：

简单易用： Celery 提供了简洁的 API，使得定义和执行任务变得非常容易。
异步执行： 任务在后台工作进程中异步执行，不会阻塞主应用程序线程。
分布式架构： Celery 可以跨多个工作节点（worker）进行分布式处理，从而提高吞吐量和可靠性。
任务调度： Celery 支持定时任务和周期性任务，可以按照预定的时间或间隔执行任务。
任务优先级： 可以为任务设置优先级，确保重要任务优先执行。
任务重试： Celery 可以自动重试失败的任务，并提供灵活的重试策略。
结果存储： Celery 可以将任务的执行结果存储在后端（如 Redis、RabbitMQ、数据库等），以便后续查询。
监控和管理： Celery 提供了丰富的监控工具和管理界面，可以实时查看任务状态、工作节点状态等。
可扩展性： Celery 的分布式架构使其能够轻松扩展以处理大量任务。
灵活性： Celery 支持多种消息代理（broker）和结果后端，可以根据需求进行选择。

2. Celery 的核心组件

Celery 的架构由以下几个核心组件组成：

任务（Task）： 任务是 Celery 中最小的工作单元，它是一个 Python 函数，包含了要执行的代码逻辑。
消息代理（Broker）： 消息代理负责在应用程序和工作节点之间传递任务消息。Celery 支持多种消息代理，包括：
- RabbitMQ： 一个功能强大、可靠的消息队列系统，是 Celery 的首选代理。
- Redis： 一个高性能的键值存储，也可以用作消息代理。
- Amazon SQS： 亚马逊简单队列服务，一个云原生的消息队列服务。
工作节点（Worker）： 工作节点是运行任务的进程。它们从消息代理中获取任务消息，执行任务，并将结果发送回结果后端。
结果后端（Result Backend）： 结果后端用于存储任务的执行结果、状态和元数据。Celery 支持多种结果后端，包括：
- Redis： 可以同时用作消息代理和结果后端。
- RabbitMQ： 也可以用作结果后端。
- 数据库： 如 PostgreSQL、MySQL 等。
- NoSQL 数据库： 如 MongoDB、Couchbase 等。
Flower (可选)： Flower 是一个基于 Web 的 Celery 监控工具，可以实时查看任务状态、工作节点状态、任务统计信息等。

3. Celery 的工作流程

Celery 的典型工作流程如下：

应用程序发布任务： 应用程序将任务（及其参数）发布到消息代理。
消息代理传递任务： 消息代理将任务消息传递给一个或多个工作节点。
工作节点接收任务： 工作节点从消息代理中接收任务消息。
工作节点执行任务： 工作节点执行任务代码。
工作节点存储结果： 工作节点将任务的执行结果（成功或失败）和状态存储到结果后端。
应用程序查询结果（可选）： 应用程序可以查询结果后端，获取任务的执行结果。

4. 安装和配置 Celery

4.1 安装 Celery

使用 pip 安装 Celery：

bash pip install celery

4.2 选择消息代理

您需要选择一个消息代理。这里以 RabbitMQ 为例：

安装 RabbitMQ： 请参考 RabbitMQ 官方文档进行安装和配置。
安装 RabbitMQ 的 Python 客户端：

bash pip install amqp

4.3 选择结果后端

您还需要选择一个结果后端。这里以 Redis 为例：

安装 Redis： 请参考 Redis 官方文档进行安装和配置。
安装 Redis 的 Python 客户端：

bash pip install redis

4.4 创建 Celery 实例

创建一个名为 tasks.py 的文件，并添加以下代码：

```python
from celery import Celery

创建 Celery 实例

app = Celery('my_tasks',
broker='amqp://guest:guest@localhost:5672//', # RabbitMQ 连接 URL
backend='redis://localhost:6379/0') # Redis 连接 URL

定义一个任务

@app.task
def add(x, y):
return x + y
```

app = Celery('my_tasks', ...)：创建 Celery 实例。
- 'my_tasks'：Celery 应用的名称。
- broker：消息代理的连接 URL。
- backend：结果后端的连接 URL。
@app.task：将 Python 函数装饰为 Celery 任务。

5. 运行 Celery

5.1 启动工作节点

在命令行中运行以下命令启动 Celery 工作节点：

bash celery -A tasks worker -l info

-A tasks：指定 Celery 应用（tasks.py 文件）。
worker：启动工作节点。
-l info：设置日志级别为 INFO。

5.2 调用任务

在 Python 解释器或另一个 Python 脚本中，您可以这样调用任务：

```python
from tasks import add

异步调用任务

result = add.delay(4, 4)

获取任务结果（阻塞，直到任务完成）

print(result.get()) # 输出：8

检查任务状态

print(result.status) # 输出：SUCCESS
```

add.delay(4, 4)：异步调用 add 任务，并返回一个 AsyncResult 对象。
result.get()：获取任务结果（会阻塞，直到任务完成）。
result.status：获取任务状态。

6. Celery 的高级特性

6.1 任务调度（定时任务和周期性任务）

Celery 支持定时任务和周期性任务，可以使用 beat 调度器来实现。

6.1.1 安装 Celery Beat

bash pip install celery[beat]

6.1.2 配置 Celery Beat

在 tasks.py 文件中添加以下配置：

```python
from celery import Celery
from celery.schedules import crontab

app = Celery('my_tasks',
broker='amqp://guest:guest@localhost:5672//',
backend='redis://localhost:6379/0')

app.conf.beat_schedule = {
'add-every-30-seconds': {
'task': 'tasks.add',
'schedule': 30.0, # 每 30 秒执行一次
'args': (16, 16) # 任务参数
},
'add-every-monday-morning': {
'task': 'tasks.add',
'schedule': crontab(hour=7, minute=30, day_of_week=1), # 每周一早上 7:30 执行
'args': (10, 10)
},
}

app.conf.timezone = 'UTC' # 设置时区

@app.task
def add(x, y):
return x + y
```

app.conf.beat_schedule：配置定时任务和周期性任务。
- 'add-every-30-seconds'：任务的名称。
- 'task'：要执行的任务。
- 'schedule'：执行计划。可以是秒数（30.0）或 crontab 对象。
- 'args'：任务参数。
app.conf.timezone：设置时区。

6.1.3 启动 Celery Beat

在命令行中运行以下命令启动 Celery Beat：

bash celery -A tasks beat -l info

重要提示： 同时运行 worker 和 beat。 beat 负责将任务添加到队列，worker 负责执行任务。

6.2 任务链（Chains）

任务链允许您将多个任务链接在一起，一个任务的输出作为下一个任务的输入。

```python
from celery import chain
from tasks import add, multiply

定义一个任务链

my_chain = chain(add.s(4, 4), multiply.s(10))

异步执行任务链

result = my_chain.delay()

获取任务链的结果

print(result.get()) # 输出：80
```

add.s(4, 4)：创建 add 任务的签名（signature）。
multiply.s(10)：创建 multiply 任务的签名。
chain(...)：将任务签名链接成一个任务链。

6.3 任务组（Groups）

任务组允许您并行执行多个任务。

```python
from celery import group
from tasks import add

定义一个任务组

my_group = group(add.s(i, i) for i in range(10))

异步执行任务组

result = my_group.delay()

获取任务组的结果

print(result.get()) # 输出：[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
```

add.s(i, i)：创建 add 任务的签名。
group(...)：将任务签名组合成一个任务组。

6.4 任务画布（Canvas）

任务画布是 Celery 中用于组合任务（链、组、和弦等）的强大工具。

```python
from celery import chain, group, chord
from tasks import add, multiply, summarize

定义一个复杂的任务画布

my_canvas = chain(
group(add.s(i, i) for i in range(10)), # 并行执行 add 任务
chord( # 使用 chord 将 group 的结果传递给 summarize
[multiply.s(10) for _ in range(10)], # 并行执行 multiply 任务
summarize.s() # 将 multiply 的结果作为 summarize 的输入
)
)

异步执行任务画布

result = my_canvas.delay()

获取任务画布的结果

print(result.get())
`` 这个例子中 1. 首先会并行计算add.s(i,i)其中i是从1到10 2. 然后会并行计算multiply.s(10)10次 3. 最后summarize.s()会把multiply.s(10)` 的10次结果作为输入。

6.5 任务重试

Celery 可以自动重试失败的任务。

```python
from celery import Celery

app = Celery('my_tasks',
broker='amqp://guest:guest@localhost:5672//',
backend='redis://localhost:6379/0')

@app.task(bind=True, autoretry_for=(Exception,), retry_backoff=True, retry_kwargs={'max_retries': 5})
def my_task(self):
try:
# 可能会失败的代码
raise Exception("Something went wrong")
except Exception as exc:
# 重试任务
raise self.retry(exc=exc)
```

bind=True：将任务绑定到自身，以便访问任务实例（如 self.retry）。
autoretry_for=(Exception,)：指定要自动重试的异常类型。
retry_backoff=True：启用指数退避重试策略（重试间隔逐渐增加）。
retry_kwargs={'max_retries': 5}：设置最大重试次数。
self.retry(exc=exc)：手动触发任务重试。

6.6 任务优先级

可以为任务设置优先级，确保重要任务优先执行。

```python
from celery import Celery

app = Celery('my_tasks',
broker='amqp://guest:guest@localhost:5672//',
backend='redis://localhost:6379/0')

@app.task(priority=10) # 设置任务优先级为 10（最高优先级）
def high_priority_task():
# ...

@app.task(priority=1) # 设置任务优先级为 1（最低优先级）
def low_priority_task():
# ...
```

priority：任务优先级，数值越大，优先级越高。

6.7 任务限流 (Rate Limits)

Celery 允许你限制特定任务的执行速率，防止任务过于频繁地执行，避免对系统资源造成过大的压力。

```python
from celery import Celery

app = Celery('my_tasks',
broker='amqp://guest:guest@localhost:5672//',
backend='redis://localhost:6379/0')

@app.task(rate_limit='10/m') # 每分钟最多执行 10 次
def my_task():
# ...
```

rate_limit：任务的速率限制。格式为 次数/时间单位，例如：
- '10/s'：每秒最多执行 10 次。
- '100/m'：每分钟最多执行 100 次。
- '1000/h'：每小时最多执行 1000 次。

7. Celery 最佳实践

保持任务简短和原子化： 任务应该尽可能小，只执行一个明确的操作。
避免在任务中共享状态： 任务之间不应该共享可变状态，以避免并发问题。
使用任务链和任务组： 将复杂的工作流程分解为多个小任务，并使用任务链和任务组来组织它们。
使用任务重试： 对于可能失败的任务，启用任务重试机制。
监控任务状态： 使用 Flower 或其他监控工具来监视任务状态和工作节点状态。
使用合适的序列化器： 根据任务数据的类型选择合适的序列化器（如 JSON、pickle 等）。
使用有意义的任务名称： 使用清晰、描述性的任务名称，以便于调试和监控。
正确配置日志记录： 配置 Celery 的日志记录，以便于跟踪任务执行情况和排查问题。
测试任务： 编写单元测试和集成测试来测试任务的正确性。
部署和扩展： 使用 Supervisor 或类似的进程管理器来管理 Celery 工作节点，并根据需要进行扩展。

8. Celery 与 Web 框架集成

Celery 可以与各种 Python Web 框架（如 Flask、Django、Pyramid 等）无缝集成。

8.1 与 Flask 集成

```python
from flask import Flask
from celery import Celery

def make_celery(app):
celery = Celery(
app.import_name,
backend=app.config['CELERY_RESULT_BACKEND'],
broker=app.config['CELERY_BROKER_URL']
)
celery.conf.update(app.config)

class ContextTask(celery.Task):
    def __call__(self, *args, **kwargs):
        with app.app_context():
            return self.run(*args, **kwargs)

celery.Task = ContextTask
return celery

app = Flask(name)
app.config.update(
CELERY_BROKER_URL='amqp://guest:guest@localhost:5672//',
CELERY_RESULT_BACKEND='redis://localhost:6379/0'
)
celery = make_celery(app)

@celery.task()
def add_together(a, b):
return a + b

@app.route('/')
def index():
result = add_together.delay(23, 42)
return f"Task ID: {result.id}"
```

8.2 与 Django 集成

安装 django-celery-beat 和 django-celery-results (可选):

bash pip install django-celery-beat django-celery-results
在 settings.py 中添加 Celery 配置：

```python

settings.py

INSTALLED_APPS = [
# ...
'django_celery_beat',
'django_celery_results', # 可选
# ...
]

CELERY_BROKER_URL = 'amqp://guest:guest@localhost:5672//'
CELERY_RESULT_BACKEND = 'django-db' # 使用 Django 数据库作为结果后端

CELERY_RESULT_BACKEND = 'redis://localhost:6379/0' # 或者使用 Redis

CELERY_ACCEPT_CONTENT = ['application/json']
CELERY_TASK_SERIALIZER = 'json'
CELERY_RESULT_SERIALIZER = 'json'
CELERY_TIMEZONE = 'UTC'
```
在 Django 项目的根目录下创建 celery.py 文件：

```python

celery.py

import os
from celery import Celery
from django.conf import settings

os.environ.setdefault('DJANGO_SETTINGS_MODULE', 'your_project.settings') # 替换为你的项目设置

app = Celery('your_project') # 替换为你的项目名称

app.config_from_object('django.conf:settings', namespace='CELERY')

app.autodiscover_tasks()
```
在 Django 应用中创建 tasks.py 文件：

```python

myapp/tasks.py

from celery import shared_task

@shared_task
def add(x, y):
return x + y
```
运行 Celery Worker 和 Beat：

bash celery -A your_project worker -l info celery -A your_project beat -l info

9. 总结

Python Celery 是一个功能强大、灵活且易于使用的分布式任务队列，它可以帮助您构建高效、可扩展的应用程序。通过将耗时的任务从主应用程序线程中分离出来，Celery 可以显著提高应用程序的性能和响应能力。本文详细介绍了 Celery 的核心概念、架构、用法、高级特性和最佳实践，希望能够帮助您更好地理解和使用 Celery。

Celery 的强大功能和灵活性使其成为构建各种类型应用程序的理想选择，包括 Web 应用程序、数据处理管道、机器学习模型训练等。掌握 Celery 将使您能够构建更强大、更可靠的应用程序。

作者：admin

链接：https://hostlocvps.com/2025/03/16/python-celery%ef%bc%9a%e6%9e%84%e5%bb%ba%e9%ab%98%e6%95%88%e7%9a%84%e5%88%86%e5%b8%83%e5%bc%8f%e5%ba%94%e7%94%a8/

文章版权归作者所有，未经允许请勿转载。

THE END

手把手教你开发IntelliJ IDEA插件

<<上一篇

代码美化神器：IntelliJ IDEA 格式化快捷键全攻略

下一篇>>

Python Celery：构建高效的分布式应用

Python Celery：构建高效的分布式应用

1. 什么是 Celery？

2. Celery 的核心组件

3. Celery 的工作流程

4. 安装和配置 Celery

4.1 安装 Celery

4.2 选择消息代理

4.3 选择结果后端

4.4 创建 Celery 实例

创建 Celery 实例

定义一个任务

5. 运行 Celery

5.1 启动工作节点

5.2 调用任务

异步调用任务

获取任务结果（阻塞，直到任务完成）

检查任务状态

6. Celery 的高级特性

6.1 任务调度（定时任务和周期性任务）

6.1.1 安装 Celery Beat

6.1.2 配置 Celery Beat

6.1.3 启动 Celery Beat

6.2 任务链（Chains）

定义一个任务链

异步执行任务链

获取任务链的结果

6.3 任务组（Groups）

定义一个任务组

异步执行任务组

获取任务组的结果

6.4 任务画布（Canvas）

定义一个复杂的任务画布

异步执行任务画布

获取任务画布的结果

6.5 任务重试

6.6 任务优先级

6.7 任务限流 (Rate Limits)

7. Celery 最佳实践

8. Celery 与 Web 框架集成

8.1 与 Flask 集成

8.2 与 Django 集成

settings.py

CELERY_RESULT_BACKEND = 'redis://localhost:6379/0' # 或者使用 Redis

celery.py

myapp/tasks.py

9. 总结