手把手教你使用pandas concat进行高效数据处理

2025-2-27

Pandas Concat 数据拼接的实用指南

数据处理是数据分析和机器学习流程中的关键步骤。经常会遇到需要将多个数据集组合成一个统一数据集的情况。Pandas 库提供了一个强大的工具——concat函数，可以灵活高效地实现各种数据拼接需求。本文将深入探讨 concat 函数的用法，并通过实例演示如何利用它来解决实际问题。

1. `concat` 函数的基础

concat 函数的基本语法如下：

python pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)

这里先简单介绍几个核心参数：

objs: 这是要拼接的对象列表，可以是 Series 或 DataFrame。
axis: 指明拼接的方向。axis=0 表示按行（垂直）拼接，axis=1 表示按列（水平）拼接。默认是 axis=0。
join: 指定如何处理非匹配的索引。'outer'（默认）取并集，'inner' 取交集。
ignore_index: 如果为 True，则重置结果的索引为从 0 开始的整数序列。
keys: 用于创建多层索引，标记每个原始数据集。

2. 沿不同轴向拼接

2.1. 垂直拼接 (axis=0)

当需要将多个具有相同列结构的数据集堆叠在一起时，使用垂直拼接。

```python
import pandas as pd

创建两个示例 DataFrame

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
'B': ['B0', 'B1', 'B2']},
index=[0, 1, 2])

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
'B': ['B3', 'B4', 'B5']},
index=[3, 4, 5])

垂直拼接

result = pd.concat([df1, df2])
print(result)

```

输出：

A B 0 A0 B0 1 A1 B1 2 A2 B2 3 A3 B3 4 A4 B4 5 A5 B5
如果df1和df2的index有重复值，也可以正常拼接，index也会保留。

2.2. 水平拼接 (axis=1)

当需要将多个数据集的列合并在一起，形成一个更宽的数据集时，使用水平拼接。

```python
import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
'B': ['B0', 'B1', 'B2']},
index=[0, 1, 2])

df3 = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
'D': ['D0', 'D2', 'D3']},
index=[0, 2, 3])

result = pd.concat([df1,df3],axis = 1)
print(result)
```

输出：

A B C D 0 A0 B0 C0 D0 1 A1 B1 NaN NaN 2 A2 B2 C2 D2 3 NaN NaN C3 D3

可以看到，concat 会根据索引对齐数据。对于没有匹配索引的行，会用 NaN 填充。

3. 处理非匹配索引

当多个数据集的索引不完全一致时，join 参数控制如何处理。

join='outer' (默认)：保留所有数据集的索引，缺失值用 NaN 填充。
join='inner'：只保留所有数据集共有的索引。

为了展示join参数不同取值的影响，设计以下对比：

条件设定：

DataFrame df1 的索引为 [0, 1, 2]。
DataFrame df3 的索引为 [0, 2, 3]。

比较 1：join='outer' (默认)

```python
import pandas as pd
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
'B': ['B0', 'B1', 'B2']},
index=[0, 1, 2])

df3 = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
'D': ['D0', 'D2', 'D3']},
index=[0, 2, 3])
result = pd.concat([df1, df3], axis=1, join='outer')
print("join='outer':\n", result)
`` 结果展现了索引的并集：\[0, 1, 2, 3]。缺失值用NaN` 填充。

比较 2：join='inner'

python result = pd.concat([df1, df3], axis=1, join='inner') print("join='inner':\n", result)

结果仅包含共有索引：[0, 2]。没有 NaN 值。

4. 重置索引

当不需要保留原始数据集的索引时，可以将 ignore_index 设置为 True，使结果的索引重置为从 0 开始的整数序列。

python result = pd.concat([df1, df2], ignore_index=True)

5. 创建多层索引

使用 keys 参数可以为每个原始数据集添加一个标识，形成多层索引。

python result = pd.concat([df1, df2], keys=['df1', 'df2']) print(result)
输出

A B df1 0 A0 B0 1 A1 B1 2 A2 B2 df2 3 A3 B3 4 A4 B4 5 A5 B5

这在区分数据来源时非常有用。

6. 性能考量

concat 操作通常是高效的，但在处理大量数据或进行多次拼接时，有一些技巧可以进一步优化性能：

避免循环中的 concat：如果在循环中反复调用 concat，每次都会生成一个新的 DataFrame，效率较低。更好的做法是将所有要拼接的 DataFrame 放入一个列表，然后一次性调用 concat。
合理选择 join 方式：如果确定数据集之间有相同的索引，使用 join='inner' 可以避免不必要的 NaN 填充。
copy 参数: 如果确认数据在拼接后不再需要原始副本，可以尝试设置copy=False。但在修改数据时要特别小心，因为这可能影响到原始数据。

7.应用场景举例

合并日志文件: 假设每天生成一个日志文件，包含相同的列。可以使用 concat 将它们合并成一个大的日志文件。
整合不同来源的数据: 比如，从多个数据库或 Excel 文件中读取数据，这些数据具有部分相同的列，可以使用 concat 将它们整合到一个 DataFrame 中进行分析。
构建特征矩阵: 在机器学习中，有时需要从多个数据集中提取特征，然后将它们按列拼接成一个特征矩阵。

8. 进阶技巧

拼接 Series：concat 不仅可以拼接 DataFrame，还可以拼接 Series。当沿 axis=0 拼接 Series 时，结果仍然是一个 Series；当沿 axis=1 拼接 Series 时，结果会变成一个 DataFrame。
处理重复列名：如果要水平拼接的 DataFrame 具有重复的列名，concat 会自动重命名这些列，在列名后添加后缀 .1、.2 等。可以通过自定义列名或在拼接后重命名列来解决。

“融会贯通”

Pandas concat 函数是一个简单而强大的工具。通过调整几个关键参数，它可以灵活应对各种数据拼接需求。理解了不同参数，就可以高效地处理数据。熟练运用concat，可以让数据处理工作事半功倍。希望使用者在数据分析的道路上越走越顺。

作者：admin

链接：https://hostlocvps.com/2025/02/27/%e6%89%8b%e6%8a%8a%e6%89%8b%e6%95%99%e4%bd%a0%e4%bd%bf%e7%94%a8pandas-concat%e8%bf%9b%e8%a1%8c%e9%ab%98%e6%95%88%e6%95%b0%e6%8d%ae%e5%a4%84%e7%90%86/

文章版权归作者所有，未经允许请勿转载。

THE END

AWS Console入门到精通：完整使用手册

<<上一篇

超移动设备新标杆：ultramobile的功能与应用领域

下一篇>>