Python 数据分析：用 Pandas read_excel 导入 Excel

2025-4-15

精通 Pandas：深入解析 read_excel，解锁 Excel 数据导入的奥秘

在数据驱动的时代，数据分析已成为各行各业不可或缺的核心能力。Python 凭借其简洁的语法、强大的库生态系统以及活跃的社区支持，成为了数据科学和分析领域的主流语言。而在 Python 的众多数据处理库中，Pandas 无疑是中流砥柱，它提供了高性能、易于使用的数据结构（主要是 DataFrame）和数据分析工具。

我们日常工作和学习中接触的数据，有相当一部分是以 Excel 文件的形式存储的。Excel 以其直观的界面和广泛的普及度，成为记录、整理和初步分析数据的常用工具。然而，当数据量增大、分析逻辑变得复杂时，Excel 的局限性便开始显现。这时，将 Excel 数据导入 Python 的 Pandas 环境中进行更高级、更自动化的分析就显得尤为重要。Pandas 提供的 read_excel 函数正是连接 Excel 世界和 Python 数据分析生态的关键桥梁。

本文将深入探讨 Pandas 库中的 read_excel 函数，从基础用法到高级参数，再到实际应用中的常见场景和注意事项，全方位、详细地介绍如何利用这一强大的工具高效、灵活地将 Excel 数据导入为 Pandas DataFrame，为后续的数据清洗、处理、分析和可视化打下坚实的基础。

一、环境准备：安装 Pandas 及依赖

在开始之前，请确保你的 Python 环境中已经安装了 Pandas 库。如果尚未安装，可以通过 pip（Python 的包管理器）轻松安装：

bash pip install pandas

值得注意的是，read_excel 函数在底层需要依赖其他库来实际解析 Excel 文件。对于较新的 .xlsx 文件（Excel 2007+），Pandas 默认使用 openpyxl 库。对于旧版的 .xls 文件，则依赖 xlrd 库。虽然 Pandas 在安装时可能会将 openpyxl 作为推荐依赖一起安装，但为了确保万无一失，特别是当你需要处理 .xls 文件时，建议明确安装它们：

bash pip install openpyxl xlrd

如果你需要处理 .xlsb（Excel 二进制工作簿）格式的文件，还需要安装 pyxlsb 库：

bash pip install pyxlsb

安装完成后，我们就可以在 Python 脚本或 Jupyter Notebook 中导入 Pandas 库，开始我们的 Excel 数据导入之旅了：

python import pandas as pd

二、 read_excel 基础用法：轻松导入第一个 Excel 文件

read_excel 函数最核心的功能就是读取指定路径下的 Excel 文件，并将其内容转换为 Pandas DataFrame。其最简单的调用方式只需要提供 Excel 文件的路径即可。

假设我们有一个名为 sales_data.xlsx 的 Excel 文件，它位于当前工作目录下，其内容大致如下（Sheet1）：

Date	Region	Product	Sales	Units
2023-01-15	East	Alpha	1500	10
2023-01-18	West	Bravo	2200	15
2023-02-10	East	Charlie	1800	12
2023-02-15	South	Alpha	1100	8

我们可以使用以下代码将其导入：

```python

假设 'sales_data.xlsx' 在当前目录下

try:
df = pd.read_excel('sales_data.xlsx')
print("Excel 文件导入成功！")
print(df.head()) # 显示前 5 行数据
except FileNotFoundError:
print("错误：文件未找到。请检查文件路径是否正确。")
except Exception as e:
print(f"导入时发生错误：{e}")
```

执行上述代码，Pandas 会默认执行以下操作：

打开名为 sales_data.xlsx 的文件。
读取文件中的第一个工作表（Sheet）。
将工作表的第一行作为列名（header）。
将剩余行作为数据。
尝试自动推断每一列的数据类型。
返回一个包含这些数据的 DataFrame 对象，赋值给变量 df。

输出结果将是一个整洁的 DataFrame，结构与 Excel 表格类似：

Excel 文件导入成功！ Date Region Product Sales Units 0 2023-01-15 East Alpha 1500 10 1 2023-01-18 West Bravo 2200 15 2 2023-02-10 East Charlie 1800 12 3 2023-02-15 South Alpha 1100 8 ... (如果数据更多)

这只是冰山一角。read_excel 函数提供了极其丰富的参数，允许我们精细地控制导入过程，以适应各种复杂和非标准的 Excel 文件格式。

三、深入核心参数：定制化你的 Excel 数据导入

read_excel 函数的强大之处在于其众多的可选参数。下面我们详细介绍一些最常用且最重要的参数：

io (第一个位置参数)：
- 作用：指定要读取的 Excel 文件的来源。
- 类型：可以是字符串（文件路径或 URL）、ExcelFile 对象、pathlib.Path 对象，或者任何具有 read() 方法的类文件对象（file-like object）。
- 示例：
```python
# 从本地文件读取
df_local = pd.read_excel('path/to/your/file.xlsx')

从 URL 读取 (需要网络连接)

url = 'http://example.com/data.xlsx'

df_url = pd.read_excel(url)

从已打开的文件对象读取

with open('data.xlsx', 'rb') as f:

df_fileobj = pd.read_excel(f)

```
sheet_name：
- 作用：指定要读取的工作表（Sheet）。
- 类型：
  - 字符串: 工作表的名称（例如 'Sheet1'，'销售数据'）。
  - 整数: 工作表的索引（从 0 开始）。0 代表第一个工作表，1 代表第二个，以此类推。
  - 列表: 包含工作表名称或索引的列表。这将返回一个字典，其中键是工作表名称/索引，值是对应的 DataFrame。
  - None: 读取所有工作表。同样返回一个包含所有工作表 DataFrame 的字典。
- 默认值：0（读取第一个工作表）。
- 示例：
```python
# 读取名为 'Inventory' 的工作表
df_inventory = pd.read_excel('data.xlsx', sheet_name='Inventory')

读取第二个工作表 (索引为 1)

df_sheet2 = pd.read_excel('data.xlsx', sheet_name=1)

读取 'Orders' 和 'Customers' 两个工作表

dict_of_dfs = pd.read_excel('data.xlsx', sheet_name=['Orders', 'Customers'])
df_orders = dict_of_dfs['Orders']
df_customers = dict_of_dfs['Customers']

读取所有工作表

all_sheets_dict = pd.read_excel('data.xlsx', sheet_name=None)
for sheet_name, df_sheet in all_sheets_dict.items():
print(f"\n--- 工作表: {sheet_name} ---")
print(df_sheet.head())
```
header：
- 作用：指定哪一行（或多行）作为列名。行索引从 0 开始。
- 类型：
  - 整数: 指定单行作为列名。例如，header=0（默认）使用第一行，header=1 使用第二行。
  - 列表 (整数): 指定多行构成多级索引（MultiIndex）列名。例如，header=[0, 1] 会将第一行和第二行合并作为列的多级索引。
  - None: 表示文件中没有列名行。Pandas 会自动生成从 0 开始的整数列名（0, 1, 2, ...）。此时通常需要配合 names 参数使用。
- 默认值：0。
- 示例：
```python
# 假设数据从第三行开始，前两行是标题或说明，第二行是列名
df_header_row2 = pd.read_excel('data.xlsx', header=1)

假设文件没有列名行，需要自己指定

df_no_header = pd.read_excel('data.xlsx', header=None)

假设第一行和第二行是多级表头

Excel:

| | Group A | Group B |

| | Metric1 | Metric2 | Metric1 | Metric2 |

| Row1 | 10 | 20 | 30 | 40 |

df_multi_header = pd.read_excel('multi_header.xlsx', header=[0, 1])
print(df_multi_header.columns) # 查看多级索引列名
```
names：
- 作用：提供自定义的列名列表。
- 类型：列表或类似列表的结构（如元组）。列表长度应与数据列数匹配。
- 使用场景：
  - 当 header=None 时，必须用 names 提供列名。
  - 即使有 header，也可以用 names 覆盖 Excel 文件中的列名。
- 示例：
```python
# 文件没有列名行，自定义列名
custom_names = ['TransactionID', 'Timestamp', 'Amount', 'CustomerID']
df_custom_names = pd.read_excel('no_header_data.xlsx', header=None, names=custom_names)

覆盖文件中的第一行列名

df_override_names = pd.read_excel('data.xlsx', header=0, names=['ColA', 'ColB', 'ColC', 'ColD', 'ColE'])
```
index_col：
- 作用：指定将哪一列（或多列）设置为 DataFrame 的行索引 (index)。
- 类型：
  - 整数: 列的索引（例如 index_col=0 使用第一列）。
  - 字符串: 列的名称（在 header 指定的行中）。
  - 列表 (整数或字符串): 指定多列构成多级行索引（MultiIndex）。
  - None: 不使用任何列作为索引，Pandas 会自动生成从 0 开始的默认整数索引。
- 默认值：None。
- 示例：
```python
# 使用第一列 ('Date') 作为行索引
df_date_index = pd.read_excel('sales_data.xlsx', index_col=0)
# 或者使用列名
df_date_index_named = pd.read_excel('sales_data.xlsx', index_col='Date')

使用 'Region' 和 'Product' 两列创建多级行索引

df_multi_index = pd.read_excel('sales_data.xlsx', index_col=['Region', 'Product'])
print(df_multi_index.index) # 查看多级索引
```
usecols：
- 作用：选择要读取的特定列，可以显著提高性能，尤其是在处理宽表（列数非常多）时，只读取需要的列可以减少内存占用和处理时间。
- 类型：
  - 字符串: Excel 列标签（例如 'A,C:E' 表示读取 A 列，以及 C 到 E 列）。
  - 列表 (整数或字符串): 包含列索引或列名的列表（例如 [0, 2, 4] 或 ['Date', 'Product', 'Units']）。
  - 可调用对象 (Callable): 一个函数，接受列名作为输入，返回 True（保留该列）或 False（丢弃该列）。
- 默认值：None (读取所有列)。
- 示例：
```python
# 只读取 'Date', 'Product', 'Sales' 列
df_selected_cols = pd.read_excel('sales_data.xlsx', usecols=['Date', 'Product', 'Sales'])

只读取第一列 (索引 0) 和第三列 (索引 2)

df_selected_indices = pd.read_excel('sales_data.xlsx', usecols=[0, 2])

使用 Excel 列标签读取 A, C, D, E 列

df_excel_labels = pd.read_excel('sales_data.xlsx', usecols='A,C:E')

使用函数选择列名包含 'Date' 或 'Sales' 的列

def select_columns(col_name):
return 'Date' in col_name or 'Sales' in col_name
df_callable_cols = pd.read_excel('sales_data.xlsx', usecols=select_columns)
```
dtype：
- 作用：指定列的数据类型。这对于确保数据按预期类型加载非常重要，避免后续因类型错误引发的问题，并可能优化内存使用。
- 类型：字典，键是列名或列索引，值是 NumPy 数据类型或 Python 类型（例如 str, float, int, np.int64, np.float32, object）。也可以用 'category' 类型来节省内存，如果列中重复值较多。
- 默认值：None (Pandas 自动推断类型)。
- 示例：
```python
# 指定 'Units' 列为整数，'Sales' 列为浮点数，'Region' 为字符串
dtype_map = {'Units': 'int', 'Sales': float, 'Region': str}
df_typed = pd.read_excel('sales_data.xlsx', dtype=dtype_map)
print(df_typed.dtypes) # 检查数据类型

对所有列强制使用 object 类型 (字符串)

df_object = pd.read_excel('data.xlsx', dtype=object)

使用 category 类型优化内存 (假设 Region 和 Product 值重复度高)

dtype_optimized = {'Region': 'category', 'Product': 'category'}
df_optimized = pd.read_excel('sales_data.xlsx', dtype=dtype_optimized)
print(df_optimized.info(memory_usage='deep')) # 查看内存占用
`` * **注意**：如果某列包含无法转换为指定类型的值（例如，将包含文本的列指定为int），Pandas 默认会引发错误。需要先进行数据清洗或使用更灵活的类型（如object`）。
engine：
- 作用：指定用于读取 Excel 文件的底层解析引擎。
- 类型：字符串，可选值包括 'openpyxl', 'xlrd', 'pyxlsb'。
- 默认值：对于 .xlsx 文件是 'openpyxl'，对于 .xls 文件是 'xlrd'。
- 使用场景：
  - 当默认引擎无法正确解析特定文件时，尝试切换引擎。
  - 明确指定使用哪个引擎，例如处理 .xlsb 文件时必须设置为 'pyxlsb'。
  - 有时不同引擎在处理特定特性（如公式、宏）或性能上可能略有差异。
- 示例：
```python
# 明确使用 openpyxl 引擎读取 xlsx 文件
df_openpyxl = pd.read_excel('data.xlsx', engine='openpyxl')

使用 xlrd 读取旧版 xls 文件

df_xlrd = pd.read_excel('old_data.xls', engine='xlrd')

读取 xlsb 文件

df_pyxlsb = pd.read_excel('binary_data.xlsb', engine='pyxlsb')

```
skiprows：
- 作用：跳过文件顶部的指定行数。
- 类型：整数（跳过前 N 行）或列表（跳过指定索引的行，索引从 0 开始）。
- 示例：
```python
# 跳过文件的前 3 行 (例如，这些行是标题或注释)
df_skip_top = pd.read_excel('data_with_header_notes.xlsx', skiprows=3)

跳过第 1 行和第 3 行 (索引为 0 和 2)

df_skip_specific = pd.read_excel('data.xlsx', skiprows=[0, 2])
`` * **注意**：skiprows的计数是在应用header*之前* 的。如果你设置了header=1并skiprows=1`，它会跳过文件的第一行，然后将文件的（原始）第二行作为 header。
skipfooter：
- 作用：跳过文件底部的指定行数。
- 类型：整数。
- 默认值：0。
- 示例：
  python # 忽略文件末尾的 2 行 (例如，这些行是总计或脚注) df_skip_bottom = pd.read_excel('data_with_footer.xlsx', skipfooter=2)
- 注意：skipfooter 对于 'xlrd' 引擎可能不支持。推荐使用 'openpyxl' 引擎。
nrows：
- 作用：只读取指定的行数（从 header 之后开始计数）。对于非常大的 Excel 文件，这可以用来快速预览文件内容或只加载部分数据进行测试。
- 类型：整数。
- 示例：
  python # 只读取数据部分的前 100 行 (不包括 header 行) df_preview = pd.read_excel('large_data.xlsx', nrows=100)
na_values：
- 作用：指定哪些值在读取时应被视为空值（NaN, Not a Number）。
- 类型：标量、字符串、列表或字典。
  - 标量/字符串: 应用于所有列。
  - 列表: 列表中的所有值在所有列中都视为空值。
  - 字典: 键是列名/索引，值是该列特定的空值表示符（可以是标量或列表）。
- 默认值：Pandas 有一组默认的 NA 值（如 #N/A, NA, NaN, null 等）。
- 示例：
```python
# 将所有列中的 'missing', '-', 'N/A' 视为空值
df_na1 = pd.read_excel('data.xlsx', na_values=['missing', '-', 'N/A'])

在 'Sales' 列中将 0 视为空值，在 'Region' 列中将 'Unknown' 视为空值

na_dict = {'Sales': [0, -999], 'Region': ['Unknown']}
df_na2 = pd.read_excel('data.xlsx', na_values=na_dict)
```
parse_dates：
- 作用：尝试将指定的列解析为日期时间（datetime）对象。这非常有用，因为直接获得 datetime 对象比后续手动转换更方便。
- 类型：
  - True: 尝试将索引列解析为日期。
  - 列表 (整数或字符串): 指定要解析为日期的列索引或列名。
  - 列表的列表: 将多个列合并解析为一个日期时间列。例如 [[1, 2]] 会尝试合并索引为 1 和 2 的列（通常是年、月、日等分开的列）来创建日期。
  - 字典: 键是新的日期时间列名，值是需要合并解析的列名列表。例如 {'DateTime': ['Date', 'Time']}。
- 示例：
```python
# 将 'Date' 列解析为日期时间
df_parsed_date = pd.read_excel('sales_data.xlsx', parse_dates=['Date'])
print(df_parsed_date.dtypes) # 'Date' 列应为 datetime64[ns] 类型

假设有 'Year', 'Month', 'Day' 三列，合并为 'EventDate'

df_merged_date = pd.read_excel('date_parts.xlsx', parse_dates={'EventDate': ['Year', 'Month', 'Day']})

假设第 0 列是日期，第 1 列是时间，合并解析

df_combined_datetime = pd.read_excel('datetime_parts.xlsx', parse_dates=[[0, 1]])

```
comment：
- 作用：指定一个字符，该字符开头的行将被视为注释行而被忽略。
- 类型：字符串。
- 示例：
  python # 忽略以 '#' 开头的行 df_commented = pd.read_excel('data_with_comments.xlsx', comment='#')

这些只是 read_excel 函数众多参数中的一部分，但它们覆盖了绝大多数常见的 Excel 数据导入场景。熟练掌握这些参数，可以让你在面对各种格式的 Excel 文件时都能游刃有余。

四、实践场景与高级技巧

处理含有合并单元格的 Excel 文件：
read_excel 通常能较好地处理简单的合并单元格（例如跨列的标题）。它会将合并单元格的值赋给该区域左上角的那个单元格对应的 DataFrame 位置，其他被合并的单元格在 DataFrame 中通常会显示为 NaN。对于复杂的合并情况，可能需要在导入后进行额外的数据清洗和填充（例如使用 fillna(method='ffill')）。
读取多个结构相似的 Excel 文件并合并：
当需要处理分布在多个 Excel 文件中的同类数据时（例如每月的销售报告），可以使用 Python 的 glob 模块找到所有文件，然后循环读取并使用 pd.concat 合并。

```python
import glob

假设所有月度销售文件都在 'monthly_sales' 目录下，且以 'sales_*.xlsx' 命名

path = 'monthly_sales/'
all_files = glob.glob(path + "sales_*.xlsx")

list_of_dfs = []
for f in all_files:
try:
df_temp = pd.read_excel(f, sheet_name='Summary', usecols=['Date', 'Product', 'Sales'])
# 可以添加一列来标识数据来源文件
df_temp['SourceFile'] = f.split('/')[-1]
list_of_dfs.append(df_temp)
except Exception as e:
print(f"读取文件 {f} 时出错: {e}")

if list_of_dfs:
combined_df = pd.concat(list_of_dfs, ignore_index=True)
print("所有文件合并完成！")
print(combined_df.info())
else:
print("没有成功读取任何文件。")
```
性能优化：处理大型 Excel 文件：
- 使用 usecols: 只加载你需要的列。
- 使用 nrows: 先加载少量行进行探索性分析或测试代码。
- 指定 dtype: 预先指定数据类型可以减少内存使用，特别是将字符串类别的列指定为 'category' 类型。
- 选择合适的引擎: openpyxl 通常对 .xlsx 文件表现良好。
- 考虑分块读取: 虽然 read_excel 没有直接的 chunksize 参数（不像 read_csv），但如果内存极其有限，可以考虑先用 ExcelFile 对象打开文件，然后逐个读取工作表，或者结合 skiprows 和 nrows 模拟分块（但这比较复杂且效率不高）。对于真正巨大的 Excel 文件（GB 级别），可能需要考虑将其转换为更适合大数据处理的格式（如 CSV、Parquet），或者使用像 Dask 这样的库进行分布式/核外计算。
```python

使用 ExcelFile 对象，可以更灵活地控制读取过程

try:
with pd.ExcelFile('very_large_data.xlsx') as xls:
# 获取所有工作表名称
sheet_names = xls.sheet_names
print(f"文件包含的工作表: {sheet_names}")
```
    # 只读取第一个工作表的前 1000 行，并指定类型
    df_large_preview = pd.read_excel(xls, sheet_name=sheet_names[0], nrows=1000, dtype={'ID': str, 'Value': float})
    print("大型文件预览加载完成。")
```
except FileNotFoundError:
print("错误：大型文件未找到。")
except Exception as e:
print(f"处理大型文件时出错: {e}")
```
错误处理：
在实际应用中，文件可能不存在、格式可能损坏、或者包含非预期的数据。使用 try...except 块来捕获潜在的错误（如 FileNotFoundError, ValueError (例如类型转换失败), IndexError (如果指定的列/行不存在), 以及来自底层引擎的特定错误）是非常重要的，可以使你的数据导入脚本更加健壮。

五、总结：read_excel——数据分析流程的坚实起点

Pandas 的 read_excel 函数是 Python 数据分析生态系统中一个极其重要且功能强大的工具。它不仅仅是一个简单的文件读取器，更是一个灵活的数据转换器，能够通过丰富的参数配置，适应各种复杂和非标准的 Excel 文件格式。

从指定工作表、处理表头、选择特定列、设定数据类型，到跳过无关行、处理缺失值、解析日期，read_excel 几乎涵盖了所有从 Excel 文件导入数据时可能遇到的需求。掌握其用法，特别是理解其核心参数的含义和应用场景，将极大地提升你处理 Excel 数据的效率和灵活性。

高效地将数据从原始来源（如 Excel）导入到强大的分析环境（如 Pandas DataFrame）是整个数据分析流程的第一步，也是至关重要的一步。read_excel 正是这一步的得力助手，它为你打开了通往深度数据洞察的大门。无论你是数据分析新手还是经验丰富的专家，深入理解并熟练运用 read_excel，都将是你在 Python 数据分析之路上必备的核心技能。

花时间实践这些参数，尝试用它们来读取你遇到的各种 Excel 文件，你将逐渐体会到 Pandas 在数据处理方面的优雅与强大。记住，一个干净、结构良好、类型正确的 DataFrame 是后续所有分析工作顺利进行的基础，而 read_excel 就是构建这个基础的坚固基石。

作者：admin

链接：https://hostlocvps.com/2025/04/15/python-%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%ef%bc%9a%e7%94%a8-pandas-read_excel-%e5%af%bc%e5%85%a5-excel/

文章版权归作者所有，未经允许请勿转载。

THE END

获取R语言：下载与安装分步说明

<<上一篇

面向站长：HTTP 524 错误排错与优化指南

下一篇>>

Python 数据分析：用 Pandas read_excel 导入 Excel

假设 'sales_data.xlsx' 在当前目录下

从 URL 读取 (需要网络连接)

url = 'http://example.com/data.xlsx'

df_url = pd.read_excel(url)

从已打开的文件对象读取

with open('data.xlsx', 'rb') as f:

df_fileobj = pd.read_excel(f)

读取第二个工作表 (索引为 1)

读取 'Orders' 和 'Customers' 两个工作表

读取所有工作表

假设文件没有列名行，需要自己指定

假设第一行和第二行是多级表头

Excel:

| | Group A | Group B |

| | Metric1 | Metric2 | Metric1 | Metric2 |

| Row1 | 10 | 20 | 30 | 40 |

覆盖文件中的第一行列名

使用 'Region' 和 'Product' 两列创建多级行索引

只读取第一列 (索引 0) 和 第三列 (索引 2)

使用 Excel 列标签读取 A, C, D, E 列

使用函数选择列名包含 'Date' 或 'Sales' 的列

对所有列强制使用 object 类型 (字符串)

df_object = pd.read_excel('data.xlsx', dtype=object)

使用 category 类型优化内存 (假设 Region 和 Product 值重复度高)

使用 xlrd 读取旧版 xls 文件

df_xlrd = pd.read_excel('old_data.xls', engine='xlrd')

读取 xlsb 文件

df_pyxlsb = pd.read_excel('binary_data.xlsb', engine='pyxlsb')

跳过第 1 行和第 3 行 (索引为 0 和 2)

在 'Sales' 列中将 0 视为空值，在 'Region' 列中将 'Unknown' 视为空值

假设有 'Year', 'Month', 'Day' 三列，合并为 'EventDate'

df_merged_date = pd.read_excel('date_parts.xlsx', parse_dates={'EventDate': ['Year', 'Month', 'Day']})

假设第 0 列是日期，第 1 列是时间，合并解析

df_combined_datetime = pd.read_excel('datetime_parts.xlsx', parse_dates=[[0, 1]])

假设所有月度销售文件都在 'monthly_sales' 目录下，且以 'sales_*.xlsx' 命名

使用 ExcelFile 对象，可以更灵活地控制读取过程

只读取第一列 (索引 0) 和第三列 (索引 2)