如何通过pandas concat快速合并多个DataFrame对象

2025-2-27

1. 引言

在数据分析和处理过程中，经常会遇到需要将多个数据源进行整合的情况。Pandas 库作为 Python 数据科学生态中的核心工具，提供了强大的数据结构（如 DataFrame）和数据操作功能。其中，concat 函数是 Pandas 中用于合并多个 DataFrame 或 Series 对象的重要工具之一。本文将深入探讨 concat 函数的原理、用法、参数配置以及与其他合并方法的比较，并通过丰富的示例代码展示其在实际应用中的灵活性和高效性。

2. `concat` 函数概述

concat 函数（全称为 concatenate，意为“连接”）的主要功能是沿着指定的轴（axis）将多个 Pandas 对象（DataFrame 或 Series）堆叠起来，形成一个更大的对象。这种堆叠可以是垂直方向的（按行）也可以是水平方向的（按列）。concat 操作可以视为数据库中的 UNION ALL 操作，即简单地将多个数据集首尾相接，不做去重处理。

2.1 基本语法

concat 函数的基本语法如下：

python pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)

2.2 核心参数

objs: 这是 concat 函数的核心输入，它接收一个列表或字典，其中包含要合并的 Pandas 对象（DataFrame 或 Series）。
axis: 指定连接的轴。axis=0 表示按行连接（垂直堆叠），axis=1 表示按列连接（水平拼接）。
join: 指定连接方式。'outer'（默认值）表示取所有对象的并集，缺失值用 NaN 填充；'inner' 表示只取所有对象的交集，只保留共有的行或列。
ignore_index: 如果设置为 True，则在连接后重置结果对象的索引，生成一个新的连续整数索引。
keys: 用于创建层次化索引（MultiIndex）。可以为每个输入对象指定一个键，这些键将成为结果对象的最外层索引。
levels: 用于指定层次化索引的层级。
names: 用于给层次化索引的各个层级命名。
verify_integrity: 默认False。如果设置为 True，则在连接前检查新连接的轴上是否存在重复的索引值，如果存在则抛出 ValueError 异常。
copy: 默认True。如果设置为 False，则在可能的情况下避免数据复制，提高性能。

3. `concat` 函数的典型用法

3.1 垂直堆叠（按行连接）

当需要将多个具有相同列结构的 DataFrame 垂直堆叠时，可以使用 axis=0（默认值）进行连接。

```python
import pandas as pd

创建三个 DataFrame

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
df3 = pd.DataFrame({'A': [9, 10], 'B': [11, 12]})

垂直堆叠

result = pd.concat([df1, df2, df3])
print(result)
```

输出结果:

A B 0 1 3 1 2 4 0 5 7 1 6 8 0 9 11 1 10 12

3.2 水平拼接（按列连接）

当需要将多个 DataFrame 水平拼接（通常这些 DataFrame 具有相同的行索引）时，可以使用 axis=1 进行连接。

```python
import pandas as pd

创建三个 DataFrame

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]}, index=['X', 'Y'])
df2 = pd.DataFrame({'C': [5, 6], 'D': [7, 8]}, index=['X', 'Y'])
df3 = pd.DataFrame({'E': [9, 10]}, index=['X', 'Z']) # 注意这里的index

水平拼接

result = pd.concat([df1, df2, df3], axis=1)
print(result)
```

输出结果:

A B C D E X 1.0 3.0 5.0 7.0 9.0 Y 2.0 4.0 6.0 8.0 NaN Z NaN NaN NaN NaN 10.0

3.3 处理索引

3.3.1 重置索引

如果希望连接后的 DataFrame 具有连续的整数索引，可以使用 ignore_index=True。

```python
import pandas as pd

创建两个 DataFrame

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

垂直堆叠并重置索引

result = pd.concat([df1, df2], ignore_index=True)
print(result)
```

输出结果:

A B 0 1 3 1 2 4 2 5 7 3 6 8

3.3.2 创建层次化索引

可以使用 keys 参数为每个输入 DataFrame 指定一个键，这些键将成为结果 DataFrame 的最外层索引。

```python
import pandas as pd

创建两个 DataFrame

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

垂直堆叠并创建层次化索引

result = pd.concat([df1, df2], keys=['df1', 'df2'])
print(result)
```
输出结果:

A B df1 0 1 3 1 2 4 df2 0 5 7 1 6 8

3.4 连接方式 ( `join` 参数)

join='outer' (默认): 保留所有输入 DataFrame 的行或列，缺失值用 NaN 填充。
join='inner': 只保留所有输入 DataFrame 共有的行或列。

```python
import pandas as pd

创建两个 DataFrame

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]}, index=[0, 1])
df2 = pd.DataFrame({'A': [5, 6], 'C': [7, 8]}, index=[1, 2])

使用 outer 连接

result_outer = pd.concat([df1, df2], axis=1, join='outer')
print("Outer Join:\n", result_outer)

使用 inner 连接

result_inner = pd.concat([df1, df2], axis=1, join='inner')
print("\nInner Join:\n", result_inner)
```

输出结果：

```
Outer Join:
A B A C
0 1.0 3.0 NaN NaN
1 2.0 4.0 5.0 7.0
2 NaN NaN 6.0 8.0

Inner Join:
A B A C
1 2 4 5 7
```

4. `concat` 与其他合并方法的比较

Pandas 提供了多种用于数据合并的方法，除了 concat，还有 merge 和 join。下面对这三种方法进行比较：

功能定位：
- concat：主要用于沿着某个轴将多个对象堆叠起来。
- merge：主要用于根据一个或多个键（列）将不同的 DataFrame 进行连接，类似于 SQL 中的 JOIN 操作。
- join：是 merge 的一种简化形式，主要用于根据索引进行连接。
连接方式:
- concat: 沿着轴堆叠，join 参数控制行或列的并集/交集。
- merge: 基于列的连接, 提供how参数控制连接类型（inner, outer, left, right）。
- join: 基于索引的连接,提供how参数控制连接类型（inner, outer, left, right）。
灵活性：
- concat：在简单堆叠场景下更高效，但在复杂连接（如多键连接、不同连接类型）方面不如 merge 灵活。
- merge：功能最强大，可以处理各种复杂的连接场景。
- join：在基于索引连接的场景下更便捷。

选择建议：

如果只是简单地将多个 DataFrame 沿着某个轴堆叠起来，且不需要复杂的连接逻辑，那么 concat 是最快速、最简洁的选择。
如果需要根据一个或多个键（列）进行连接，并且需要灵活控制连接类型（如内连接、外连接、左连接、右连接），那么 merge 是最佳选择。
如果需要根据索引进行连接，那么 join 是一个更便捷的选择。

5. `concat` 函数的高级应用

5.1 处理重复列名

当水平拼接的 DataFrame 具有重复的列名时，concat 会保留所有列，并在列名后添加后缀以区分。

```python
import pandas as pd

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

result = pd.concat([df1, df2], axis=1)
print(result)
输出:
A B A B
0 1 3 5 7
1 2 4 6 8
```

5.2 结合 `groupby` 使用

concat 可以与 groupby 结合使用，实现更复杂的数据分组和合并操作。

```python
import pandas as pd

创建一个 DataFrame

df = pd.DataFrame({
'Group': ['A', 'A', 'B', 'B', 'C', 'C'],
'Value1': [1, 2, 3, 4, 5, 6],
'Value2': [7, 8, 9, 10, 11, 12]
})

按 Group 分组，并将每个组的 Value1 和 Value2 列分别合并成列表

grouped = df.groupby('Group').agg({'Value1': list, 'Value2': list})

将 Value1 和 Value2 的列表展开成新的 DataFrame

result = pd.concat([grouped['Value1'].apply(pd.Series),
grouped['Value2'].apply(pd.Series)], axis=1)

print(result)
```

5.3 合并大型数据集

当需要合并非常大的数据集时，为了避免内存溢出，可以分块读取数据，然后使用 concat 逐块合并。

```python
import pandas as pd

假设有两个非常大的 CSV 文件：data1.csv 和 data2.csv

每个文件包含多个块（chunks）

chunk_size = 10000 # 每个块的大小

chunks1 = pd.read_csv('data1.csv', chunksize=chunk_size)
chunks2 = pd.read_csv('data2.csv', chunksize=chunk_size)

逐块合并

result_chunks = []
for chunk1, chunk2 in zip(chunks1, chunks2):
result_chunks.append(pd.concat([chunk1, chunk2]))

将所有块合并成一个 DataFrame

result = pd.concat(result_chunks)

```

6. 性能优化

在使用 concat 合并大量 DataFrame 时，一些性能优化技巧可以帮助提高效率：

预分配内存： 如果事先知道最终 DataFrame 的大小，可以通过预分配内存来减少内存分配的次数，从而提高性能。
减少复制： 尽量使用 copy=False 参数，避免不必要的数据复制。
选择合适的连接方式： 根据实际需求选择合适的 join 参数（'outer' 或 'inner'），避免不必要的计算。
使用 Categorical 类型： 对于具有大量重复值的列，可以使用 Categorical 类型来减少内存占用。
分块处理: 对于大型数据集，采用分块读取与合并。

7. 结语：`concat` 的价值与应用前景

concat 函数作为 Pandas 库中数据合并的核心工具之一，以其简洁的语法、高效的性能和灵活的配置，在数据处理的各个环节都发挥着重要作用。熟练掌握 concat 函数的用法，并结合其他 Pandas 功能，可以帮助数据分析师和工程师更高效地完成数据整合、清洗和转换等任务。随着数据科学领域的不断发展，concat 函数将在处理更复杂、更大规模的数据集中扮演越来越重要的角色。

作者：admin

链接：https://hostlocvps.com/2025/02/27/%e5%a6%82%e4%bd%95%e9%80%9a%e8%bf%87pandas-concat%e5%bf%ab%e9%80%9f%e5%90%88%e5%b9%b6%e5%a4%9a%e4%b8%aadataframe%e5%af%b9%e8%b1%a1/

文章版权归作者所有，未经允许请勿转载。

THE END

Bitbucket入门教程：从零开始的项目协作工具

<<上一篇

如何在Docker中启用并使用SSH服务

下一篇>>

如何通过pandas concat快速合并多个DataFrame对象

Pandas DataFrame 多对象快速合并：concat 函数详解与应用

1. 引言

2. concat 函数概述

2.1 基本语法

2.2 核心参数

3. concat 函数的典型用法

3.1 垂直堆叠（按行连接）

创建三个 DataFrame

垂直堆叠

3.2 水平拼接（按列连接）

创建三个 DataFrame

水平拼接

3.3 处理索引

3.3.1 重置索引

创建两个 DataFrame

垂直堆叠并重置索引

3.3.2 创建层次化索引

创建两个 DataFrame

垂直堆叠并创建层次化索引

3.4 连接方式 ( join 参数)

创建两个 DataFrame

使用 outer 连接

使用 inner 连接

4. concat 与其他合并方法的比较

5. concat 函数的高级应用

5.1 处理重复列名

5.2 结合 groupby 使用

创建一个 DataFrame

按 Group 分组，并将每个组的 Value1 和 Value2 列分别合并成列表

将 Value1 和 Value2 的列表展开成新的 DataFrame

5.3 合并大型数据集

假设有两个非常大的 CSV 文件：data1.csv 和 data2.csv

每个文件包含多个块（chunks）

逐块合并

将所有块合并成一个 DataFrame

6. 性能优化

7. 结语：concat 的价值与应用前景

Pandas DataFrame 多对象快速合并：`concat` 函数详解与应用

2. `concat` 函数概述

3. `concat` 函数的典型用法

3.4 连接方式 ( `join` 参数)

4. `concat` 与其他合并方法的比较

5. `concat` 函数的高级应用

5.2 结合 `groupby` 使用

7. 结语：`concat` 的价值与应用前景