Pandas read_excel：直接输出大型Excel文件数据的技巧

2025-3-17

Pandas read_excel：直接输出大型Excel文件数据的技巧

处理大型Excel文件是数据分析中的常见挑战。Python中的Pandas库提供了read_excel函数，用于读取Excel文件到DataFrame。然而，直接读取大型Excel文件可能会导致内存错误或处理速度极慢。本文将深入探讨如何优化read_excel，高效地处理大型Excel文件并直接输出数据，避免内存瓶颈。

1. 使用合适的引擎:

Pandas的read_excel支持多种引擎，包括xlrd, openpyxl, 和odf. 对于大型文件，推荐使用openpyxl引擎，因为它支持xlsx和xlsm格式，并且内存效率相对较高。xlrd只支持xls格式，并且对于大型xls文件效率较低。

```python
import pandas as pd

使用openpyxl引擎读取xlsx文件

df = pd.read_excel("large_file.xlsx", engine="openpyxl")

使用openpyxl引擎读取xlsm文件

df = pd.read_excel("large_file.xlsm", engine="openpyxl")
```

2. 分块读取:

read_excel函数的chunksize参数允许将文件分块读取，每次读取指定数量的行。这可以显著降低内存消耗，尤其是在处理非常大的文件时。chunksize返回一个TextFileReader对象，可以迭代读取每一块数据。

```python

每次读取10000行

chunksize = 10000
for chunk in pd.read_excel("large_file.xlsx", engine="openpyxl", chunksize=chunksize):
# 处理每一块数据，例如直接输出或进行其他操作
for index, row in chunk.iterrows():
print(row) # 直接输出每一行数据
```

3. 使用usecols参数指定需要的列:

如果只需要读取Excel文件中的特定列，可以使用usecols参数。这可以减少内存使用并提高读取速度。usecols可以接受列名列表或列索引列表。

```python

只读取'A'列和'C'列

df = pd.read_excel("large_file.xlsx", engine="openpyxl", usecols=["A", "C"])

只读取第1列和第3列

df = pd.read_excel("large_file.xlsx", engine="openpyxl", usecols=[0, 2])
```

4. 使用nrows参数限制读取的行数:

如果只需要读取文件的前几行数据进行预览或测试，可以使用nrows参数指定读取的行数。

```python

只读取前100行

df = pd.read_excel("large_file.xlsx", engine="openpyxl", nrows=100)
```

5. 数据类型优化:

Pandas会自动推断数据类型，但有时会选择占用内存较大的类型。可以使用dtype参数指定每一列的数据类型，以减少内存使用。

```python

指定'A'列为int类型，'B'列为float类型

df = pd.read_excel("large_file.xlsx", engine="openpyxl", dtype={'A': int, 'B': float})
```

6. 结合分块读取和数据类型优化:

将分块读取和数据类型优化结合起来，可以最大程度地提高效率。

python chunksize = 10000 dtypes = {'A': int, 'B': float, 'C': str} # 根据实际情况设置数据类型 for chunk in pd.read_excel("large_file.xlsx", engine="openpyxl", chunksize=chunksize, dtype=dtypes): # 处理每一块数据 for index, row in chunk.iterrows(): print(row)

7. 直接输出到文件:

为了避免将整个DataFrame加载到内存中，可以直接将读取的每一块数据输出到文件。

python chunksize = 10000 with open("output.txt", "w") as outfile: for chunk in pd.read_excel("large_file.xlsx", engine="openpyxl", chunksize=chunksize): for index, row in chunk.iterrows(): outfile.write(str(row) + "\n") # 将每一行数据写入文件

8. 使用CSV文件作为中间格式:

如果Excel文件非常大，可以先将其转换为CSV文件，然后再使用Pandas读取CSV文件。CSV文件通常比Excel文件小，读取速度也更快。

```python
import csv
import openpyxl

workbook = openpyxl.load_workbook("large_file.xlsx", read_only=True) # 使用read_only模式节省内存
sheet = workbook.active

with open("output.csv", "w", newline="", encoding="utf-8") as csvfile:
writer = csv.writer(csvfile)
for row in sheet.rows:
writer.writerow([cell.value for cell in row])

读取CSV文件

df = pd.read_csv("output.csv")
```

9. 使用 Dask:

对于极大的Excel文件，可以考虑使用Dask库，它可以并行处理数据，并有效地处理超出内存容量的数据集。

```python
import dask.dataframe as dd

df = dd.read_excel("large_file.xlsx", engine="openpyxl")

计算结果并输出或保存

df.to_csv("output_*.csv") # 输出到多个csv文件

或者直接计算某些结果

result = df["column_name"].sum().compute()
print(result)

```

总结:

处理大型Excel文件需要谨慎选择合适的策略。通过结合上述技巧，例如使用openpyxl引擎、分块读取、选择需要的列、优化数据类型以及直接输出到文件，可以高效地处理大型Excel文件数据，避免内存错误并提高处理速度。选择哪种方法取决于文件的具体大小和你的需求。对于中等大小的文件，分块读取和列选择通常足够有效。对于极大的文件，考虑使用CSV作为中间格式或使用Dask进行并行处理。记住要根据实际情况调整chunksize和dtype参数，以获得最佳性能。通过合理的优化，即使面对庞大的Excel文件，也能轻松提取和处理所需的数据。

作者：admin

链接：https://hostlocvps.com/2025/03/17/pandas-read_excel%ef%bc%9a%e7%9b%b4%e6%8e%a5%e8%be%93%e5%87%ba%e5%a4%a7%e5%9e%8bexcel%e6%96%87%e4%bb%b6%e6%95%b0%e6%8d%ae%e7%9a%84%e6%8a%80%e5%b7%a7/

文章版权归作者所有，未经允许请勿转载。

THE END

FastAPI案例研究：实际应用场景

<<上一篇

Google Scholar：研究人员的必备工具

下一篇>>