Python Pandas read_excel 方法：从 Excel 导入数据

2025-4-1

精通 Pandas：深入解析 read_excel 从 Excel 导入数据的终极指南

在数据驱动的时代，数据分析已成为各行各业不可或缺的核心能力。而在这个过程中，如何高效、准确地将数据导入分析环境是至关重要的第一步。Microsoft Excel 作为广泛使用的电子表格软件，存储了大量的商业、科研和社会数据。Python 凭借其强大的生态系统，特别是 Pandas 库，成为了数据分析的主流工具。连接 Excel 和 Python Pandas 的关键桥梁，便是 pandas.read_excel() 函数。本文将深入、详细地探讨 read_excel 方法的方方面面，助您完全掌握从 Excel 文件导入数据的技巧。

一、 Pandas 与 Excel：为何需要 read_excel？

Excel 的普及性： 无论是在商业报告、财务记录、实验数据还是简单的列表管理中，Excel 文件（.xls 或 .xlsx）无处不在。数据分析师常常需要处理来自同事、客户或公共来源的 Excel 文件。
Pandas 的威力： Pandas 是 Python 数据分析的核心库，提供了高性能、易用的数据结构（主要是 DataFrame）和数据分析工具。它可以进行数据清洗、转换、合并、重塑、切片、聚合等各种复杂操作。
read_excel 的角色： read_excel 函数就是为了解决“如何将 Excel 表格中的数据，无缝地加载到强大的 Pandas DataFrame 中”这一核心问题而设计的。它不仅仅是简单地读取数据，还提供了极其丰富的选项来处理 Excel 文件中可能遇到的各种复杂情况，如多个工作表、不同的表头位置、需要跳过的行列、指定数据类型、处理缺失值等。

二、准备工作：安装必要的库

要使用 pd.read_excel()，首先需要确保你的 Python 环境中安装了 Pandas。通常，使用 pip 可以轻松安装：

bash pip install pandas

然而，Pandas 本身并不直接解析 Excel 文件。它依赖于其他第三方库来处理底层的 Excel 文件格式。你需要根据你要读取的 Excel 文件类型（.xls 或 .xlsx）安装相应的引擎库：

读取 .xlsx 文件（推荐）： 需要安装 openpyxl。这是目前推荐的、功能最全的库，支持较新的 Excel 格式。
bash pip install openpyxl
读取旧版的 .xls 文件： 需要安装 xlrd。请注意，较新版本的 xlrd (>=2.0) 出于安全考虑，不再支持 .xlsx 文件。如果需要同时处理两种格式，或者必须使用旧版 .xls，可以安装 xlrd。
bash pip install xlrd
读取 OpenDocument 格式 (.ods)： 需要安装 odfpy。
bash pip install odfpy

Pandas 会在调用 read_excel 时自动检测并使用已安装的合适引擎。如果没有安装相应的库，Pandas 会抛出 ImportError 并提示你需要安装哪个库。建议优先安装 openpyxl，因为它支持现代 Excel 格式且持续更新。

三、 read_excel 的基本用法

最简单的使用方式是提供 Excel 文件的路径：

```python
import pandas as pd

假设当前目录下有一个名为 'data.xlsx' 的 Excel 文件

try:
df = pd.read_excel('data.xlsx')
print("成功读取 Excel 文件！")
print(df.head()) # 显示前 5 行数据
except FileNotFoundError:
print("错误：文件 'data.xlsx' 未找到。")
except Exception as e:
print(f"读取 Excel 文件时发生错误：{e}")

```

在默认情况下：
* read_excel 会读取文件的第一个工作表 (Sheet)。
* 它假定工作表的第一行是表头 (Header)，并将这些值用作 DataFrame 的列名。
* 它会尝试自动推断每一列的数据类型。

四、核心参数详解：定制你的数据导入过程

read_excel 的真正威力在于其丰富的参数，允许你精细地控制数据导入的各个环节。下面我们详细介绍一些最常用和最重要的参数：

io:
- 作用: 指定要读取的 Excel 文件的来源。
- 类型:
  - 字符串 (str): 本地文件路径（绝对或相对路径）或 URL (http, ftp, s3 等，需要安装相应的库如 s3fs)。
  - ExcelFile 对象: 通过 pd.ExcelFile(path) 创建的对象，有助于提高读取同一文件多个工作表的效率。
  - 类文件对象 (File-like object): 任何具有 read() 方法的对象，例如通过 open() 打开的文件句柄，或者 BytesIO / StringIO 对象（用于处理内存中的数据）。
  - 二进制数据 (bytes): Excel 文件的原始二进制内容。
- 示例:
```python
# 从本地文件
df1 = pd.read_excel('path/to/your/data.xlsx')

从 URL (需要网络连接)

url = 'http://example.com/data.xlsx'

df2 = pd.read_excel(url)

使用 ExcelFile (推荐用于读取多个 sheet)

excel_file = pd.ExcelFile('data.xlsx')
df_sheet1 = pd.read_excel(excel_file, sheet_name='Sheet1')
df_sheet2 = pd.read_excel(excel_file, sheet_name='Sheet2')

从内存中的 BytesIO 对象

import io

假设 excel_bytes 是从网络请求或其他来源获取的二进制数据

with open('data.xlsx', 'rb') as f:

excel_bytes = f.read()

excel_stream = io.BytesIO(excel_bytes)

df3 = pd.read_excel(excel_stream)

```
sheet_name:
- 作用: 指定要读取哪个或哪些工作表。
- 类型:
  - 字符串 (str): 工作表的名称 (例如 'Sales Data')。
  - 整数 (int): 工作表的索引（从 0 开始）。0 代表第一个工作表，1 代表第二个，以此类推。
  - 列表 (list): 包含字符串或整数的列表，用于一次性读取多个指定的工作表。例如 [0, 'Summary'] 会读取第一个工作表和名为 "Summary" 的工作表。
  - None: 读取所有工作表。
- 返回值:
  - 当 sheet_name 是字符串或整数时，返回一个 DataFrame。
  - 当 sheet_name 是列表或 None 时，返回一个字典 (dict)，其中键是工作表名称（或索引，如果原始名称不可用），值是对应的 DataFrame。
- 示例:
```python
# 读取名为 "Orders" 的工作表
df_orders = pd.read_excel('data.xlsx', sheet_name='Orders')

读取第二个工作表 (索引为 1)

df_sheet2 = pd.read_excel('data.xlsx', sheet_name=1)

读取第一个和第三个工作表

dict_of_dfs = pd.read_excel('data.xlsx', sheet_name=[0, 2])
df_first = dict_of_dfs[0]
df_third = dict_of_dfs[2]

读取所有工作表

all_sheets_dict = pd.read_excel('data.xlsx', sheet_name=None)
for sheet_name, df_sheet in all_sheets_dict.items():
print(f"\n--- 工作表: {sheet_name} ---")
print(df_sheet.head())
```
header:
- 作用: 指定哪一行（或多行）作为列名（表头）。其余数据将从该行的下一行开始读取。
- 类型:
  - 整数 (int): 行的索引（从 0 开始）。例如，header=0 (默认) 表示第一行是表头，header=1 表示第二行是表头。
  - 整数列表 (list of int): 指定多行作为表头，这将创建一个多级索引 (MultiIndex) 的列。例如 header=[0, 1] 表示前两行共同构成复合表头。
  - None: 文件中没有表头。Pandas 会自动分配从 0 开始的整数作为列名。通常需要配合 names 参数使用。
- 示例:
```python
# 假设数据从第 3 行开始，第 3 行是表头 (索引为 2)
df_header_row3 = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=2)

假设文件没有表头行

df_no_header = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=None)
print(df_no_header.columns) # 输出 RangeIndex(start=0, stop=N, step=1)

假设前两行是复合表头

df_multi_header = pd.read_excel('complex_header.xlsx', header=[0, 1])
print(df_multi_header.columns) # 输出 MultiIndex
```
names:
- 作用: 提供一个自定义的列名列表。
- 类型: 列表 (list)。列表的长度应与 Excel 文件中的列数（或 usecols 指定的列数）相匹配。
- 使用场景:
  - 当 header=None 时，必须使用 names 来指定列名。
  - 覆盖文件中现有的表头。
- 示例:
```python
# 文件没有表头，提供自定义列名
custom_names = ['ID', 'ProductName', 'Quantity', 'Price']
df_custom_names = pd.read_excel('no_header_data.xlsx', header=None, names=custom_names)

覆盖文件中的表头

df_override_header = pd.read_excel('data.xlsx', names=custom_names, header=0) # header=0 确保读取第一行数据但不作为列名
# 如果只想覆盖，可以直接省略 header=0，Pandas 默认会读取第一行并用 names 覆盖
df_override_header_simpler = pd.read_excel('data.xlsx', names=custom_names) # 更常见的方式
`` *注意*: 如果提供了names且未设置header=None，names会直接替换掉header` 指定行（或默认第一行）的内容作为列名。
index_col:
- 作用: 指定将哪一列（或多列）用作 DataFrame 的行索引 (index)。
- 类型:
  - 整数 (int): 列的索引（从 0 开始）。
  - 字符串 (str): 列的名称（在指定 header 之后确定）。
  - 整数或字符串列表 (list): 指定多列创建多级行索引 (MultiIndex)。
  - False or None (默认): 不使用任何列作为索引，Pandas 会自动创建一个从 0 开始的默认整数索引 (RangeIndex)。
- 示例:
```python
# 使用第一列 (索引 0) 作为行索引
df_index_col0 = pd.read_excel('data.xlsx', index_col=0)

使用名为 "CustomerID" 的列作为行索引 (假设 "CustomerID" 在 header 行中)

df_index_name = pd.read_excel('data.xlsx', index_col='CustomerID')

使用 "Category" 和 "ProductID" 两列创建多级行索引

df_multi_index = pd.read_excel('data.xlsx', index_col=['Category', 'ProductID'])
```
usecols:
- 作用: 选择要读取的特定列，可以显著提高读取速度并减少内存占用，特别是对于宽表格。
- 类型:
  - 字符串 (str): 指定要读取的列范围（Excel 风格），例如 'A:C,E' 表示读取 A, B, C 和 E 列。
  - 整数列表 (list of int): 列的索引列表，例如 [0, 2, 4] 表示读取第 1, 3, 5 列。
  - 字符串列表 (list of str): 列的名称列表（基于 header 行），例如 ['Name', 'Age', 'City']。
  - 可调用对象 (callable): 一个接受列名（字符串）作为参数并返回 True (保留该列) 或 False (跳过该列) 的函数。
- 示例:
```python
# 只读取 A, B, D 列
df_cols_range = pd.read_excel('data.xlsx', usecols='A,B,D')

只读取第 1, 4, 5 列 (索引 0, 3, 4)

df_cols_index = pd.read_excel('data.xlsx', usecols=[0, 3, 4])

只读取名为 "Date", "Revenue", "Region" 的列

df_cols_name = pd.read_excel('data.xlsx', usecols=['Date', 'Revenue', 'Region'])

只读取以 "ID" 结尾的列名

def filter_cols(col_name):
return col_name.endswith('ID')
df_cols_callable = pd.read_excel('data.xlsx', usecols=filter_cols)
`` *注意*: 如果同时使用了index_col，usecols指定的列应该包含index_col` 指定的列。
dtype:
- 作用: 指定列的数据类型。这对于确保数据正确性、节省内存或避免后续转换非常重要。
- 类型: 字典 (dict)，其中键是列名或列索引，值是 NumPy 数据类型或 Python 类型（如 str, int, float, np.int64, np.float32, 'category' 等）。可以为所有列指定一个通用类型，或者为特定列指定不同类型。
- 示例:
```python
# 指定特定列的类型
dtypes = {'CustomerID': str, 'Quantity': 'Int64', 'Price': float, 'OrderDate': 'datetime64[ns]'}
# 'Int64' (大写 'I') 是 Pandas 提供的可空整数类型
df_typed = pd.read_excel('data.xlsx', dtype=dtypes)

将所有列尝试读取为字符串

df_all_str = pd.read_excel('data.xlsx', dtype=str)

print(df_typed.info()) # 检查数据类型是否正确应用
```
engine:
- 作用: 显式指定用于读取 Excel 文件的后端引擎。
- 类型: 字符串 (str)。
  - 'openpyxl': 用于 .xlsx 文件 (默认推荐)。
  - 'xlrd': 主要用于 .xls 文件 (旧版 Excel 格式)。新版 xlrd 不支持 .xlsx。
  - 'odf': 用于 .ods (OpenDocument Spreadsheet) 文件，需要安装 odfpy。
  - 'pyxlsb': 用于 .xlsb (Excel Binary Workbook) 文件，需要安装 pyxlsb。
- 使用场景:
  - 当 Pandas 自动检测引擎失败或你想强制使用特定引擎时。
  - 处理特定格式（如 .xls 或 .ods）。
- 示例:
```python
# 强制使用 openpyxl 读取 xlsx 文件
df_xlsx = pd.read_excel('data.xlsx', engine='openpyxl')

读取旧版 xls 文件

try:
df_xls = pd.read_excel('old_data.xls', engine='xlrd')
except ImportError:
print("需要安装 'xlrd' 库来读取 .xls 文件。 pip install xlrd")
except Exception as e:
print(f"读取 .xls 文件出错: {e}")

读取 ods 文件 (需要安装 odfpy)

try:

df_ods = pd.read_excel('data.ods', engine='odf')

except ImportError:

print("需要安装 'odfpy' 库来读取 .ods 文件。 pip install odfpy")

```
skiprows:
- 作用: 跳过文件顶部的指定行数。
- 类型:
  - 整数 (int): 要跳过的行数（从 0 开始计数）。例如 skiprows=5 会跳过前 5 行。
  - 整数列表 (list of int): 要跳过的特定行号（索引）的列表。例如 skiprows=[0, 2, 4] 会跳过第 1, 3, 5 行。
  - 可调用对象 (callable): 一个接受行索引（整数）作为参数并返回 True (跳过该行) 或 False (保留该行) 的函数。
- 注意: 跳过的行是在确定 header 之前计算的。
- 示例:
```python
# 跳过文件开头的 3 行注释或空白行
df_skip_initial = pd.read_excel('data_with_header_notes.xlsx', skiprows=3)
# 假设 header 在第 4 行 (索引 3)，则 header 会自动从跳过后的第一行（即原始文件的第 4 行）读取

跳过特定的行，例如第 1 行和第 3 行 (索引 0, 2)

df_skip_specific = pd.read_excel('data.xlsx', skiprows=[0, 2])

跳过所有空行 (需要更复杂的逻辑，通常在读取后处理更方便，但 callable 也可以实现)

def skip_empty_rows(row_index):

# 这里需要一种方法预先检查行是否为空，read_excel 本身不直接提供此功能

# 这个 callable 主要用于基于行号本身的逻辑跳过

pass

```
skipfooter:
- 作用: 跳过文件末尾的指定行数。
- 类型: 整数 (int)。
- 注意: 这个参数在某些引擎（如 openpyxl）上可能效率不高，因为它可能需要先读取整个文件来确定总行数。
- 示例:
  python # 假设文件末尾有 2 行总结或脚注需要忽略 df_skip_end = pd.read_excel('data_with_footer.xlsx', skipfooter=2)
nrows:
- 作用: 只读取文件的前 N 行数据（在 skiprows 之后，包括 header 行）。对于快速预览大型文件或进行测试非常有用。
- 类型: 整数 (int)。
- 示例:
  python # 只读取数据区域的前 100 行 (加上 header 行) df_preview = pd.read_excel('large_data.xlsx', nrows=100)
na_values:
- 作用: 定义哪些值在读取时应被视为空值 (NaN)。
- 类型:
  - 标量 (str, int, float): 一个全局应用于所有列的自定义 NaN 值。
  - 列表或集合 (list, set): 多个全局应用于所有列的自定义 NaN 值。
  - 字典 (dict): 为特定列指定不同的 NaN 值。键是列名或列索引，值是该列要识别为 NaN 的标量或列表。
- 示例:
```python
# 将所有列中的 "N/A", "Not Available", -999 视为空值
na_list = ['N/A', 'Not Available', -999, '--']
df_custom_na = pd.read_excel('data_with_na.xlsx', na_values=na_list)

为 'Score' 列指定 -1 为 NaN，为 'Status' 列指定 "Unknown" 为 NaN

na_dict = {'Score': [-1], 'Status': ['Unknown', 'Pending']}
df_col_specific_na = pd.read_excel('data_with_na.xlsx', na_values=na_dict)
`` * **keep_default_na**: (布尔型, 默认为True) 是否保留 Pandas 默认识别的 NaN 值（如#N/A,NA,NaN,null,''等）。如果设置为False，则只有na_values` 中指定的值才会被视作 NaN。
parse_dates:
- 作用: 尝试将指定的列解析为日期时间 (datetime) 对象。
- 类型:
  - True: 尝试将索引列解析为日期。
  - 整数或字符串列表 (list): 要解析为日期的列索引或列名列表。例如 [0, 'OrderDate']。
  - 列表的列表 (list of lists): 将多个列合并解析为一个日期时间列。例如 [['Year', 'Month', 'Day']] 会将这三列合并成一个新的日期时间列（通常会替换第一列并移除其他合并列）。
  - 字典 (dict): 键是新的日期时间列名，值是包含要合并的列名的列表。例如 {'DateTime': ['Date', 'Time']}。
- 示例:
```python
# 解析 "OrderDate" 和 "ShipDate" 列为日期
df_dates = pd.read_excel('data.xlsx', parse_dates=['OrderDate', 'ShipDate'])

合并 "Year", "Month", "Day" 列解析为名为 "FullDate" 的日期列

df_combined_date = pd.read_excel('date_parts.xlsx', parse_dates={'FullDate': ['Year', 'Month', 'Day']}, index_col='FullDate')

注意：合并解析时，通常需要将新生成的日期列设为索引或后续手动处理

print(df_dates.info()) # 检查日期列是否为 datetime64[ns] 类型
`` * **date_parser/date_format(新版 Pandas)**: 如果自动解析失败或需要特定格式，可以使用date_parser传递一个自定义解析函数，或使用date_format(Pandas 1.5+) 提供strftime` 格式字符串来辅助解析。
comment:
- 作用: 指定一个字符，如果某行以该字符开头，则该行将被视为注释并跳过。
- 类型: 字符串 (str)。
- 示例:
  python # 跳过所有以 '#' 开头的行 df_no_comments = pd.read_excel('data_with_comments.xlsx', comment='#')
thousands:
- 作用: 指定用于数值列中的千位分隔符。
- 类型: 字符串 (str)。例如 ','。
- 示例:
  python # 处理带逗号千位分隔符的数字列，如 "1,234.56" df_thousands = pd.read_excel('formatted_numbers.xlsx', thousands=',') # 需要配合 dtype 或后续转换确保数值类型正确 print(df_thousands['Revenue'].dtype) # 可能需要 .astype(float)
decimal:
- 作用: 指定用于数值列中的小数点字符。默认为 .。在某些地区（如欧洲）可能使用 , 作为小数点。
- 类型: 字符串 (str)。
- 示例:
  python # 处理使用逗号作为小数点的数字，如 "1234,56" df_decimal = pd.read_excel('european_numbers.xlsx', decimal=',') # 可能还需要配合 thousands 参数，例如 thousands='.' # df_decimal_complex = pd.read_excel('complex_formatted.xlsx', decimal=',', thousands='.') print(df_decimal['Value'].dtype) # 可能需要 .astype(float)

五、高级技巧与最佳实践

处理大型 Excel 文件:
- usecols: 只加载你需要的列。
- nrows: 只加载部分行进行初步分析或测试。
- dtype: 预先指定 dtype，特别是对于数值列使用更小的类型（如 float32 代替 float64）或将低基数列设为 'category' 类型，可以显著减少内存占用。
- 分块读取 (Chunking): 虽然 read_excel 没有像 read_csv 那样直接的 chunksize 参数，但你可以结合 skiprows 和 nrows 手动实现分块读取，或者先用其他库（如 openpyxl）逐行读取再构建 DataFrame（但这通常更复杂）。对于非常大的文件，可能考虑转换为更高效的格式（如 CSV, Parquet, Feather）后再用 Pandas 处理。
读取受密码保护的 Excel 文件:
Pandas read_excel 本身不直接支持读取受密码保护的文件。你需要借助相应的引擎库（如 openpyxl 或 msoffcrypto-tool）先解密文件内容，然后将解密后的数据流传递给 read_excel。
```python
import io
import msoffcrypto
import pandas as pd

password = "your_password"
decrypted_stream = io.BytesIO()

try:
with open('protected.xlsx', 'rb') as f:
file = msoffcrypto.OfficeFile(f)
file.load_key(password=password)
file.decrypt(decrypted_stream)
```
# 将解密后的数据流传递给 read_excel
df = pd.read_excel(decrypted_stream)
print("成功读取受密码保护的文件！")
print(df.head())
```
except FileNotFoundError:
print("错误：文件 'protected.xlsx' 未找到。")
except Exception as e:
# 捕获可能的密码错误或其他解密/读取错误
print(f"处理受保护文件时出错: {e}")
`` 你需要先安装msoffcrypto-tool:pip install msoffcrypto-tool`。
错误处理:
在实际应用中，Excel 文件可能存在各种问题（文件损坏、格式不规范、工作表名错误、数据类型混乱等）。使用 try...except 块来捕获潜在的错误（如 FileNotFoundError, ValueError for 无效参数, ImportError for 缺少引擎, xlrd.biffh.XLRDError for xlrd 相关问题, 以及 openpyxl 可能抛出的特定异常）是非常重要的，可以使你的数据导入脚本更加健壮。
使用 pd.ExcelFile 提高效率:
当你需要从同一个 Excel 文件中读取多个工作表或进行多次读取操作时，先创建 pd.ExcelFile(path) 对象，然后将此对象传递给 pd.read_excel() 的 io 参数。这样可以避免每次调用 read_excel 时都重新解析整个文件结构，从而提高效率。

六、总结

pandas.read_excel 是 Python 数据科学生态中连接电子表格世界和强大分析工具链的关键函数。它远不止是一个简单的文件读取器，而是一个功能全面、高度可配置的数据导入接口。通过熟练掌握其众多参数，如 sheet_name, header, index_col, usecols, dtype, skiprows, na_values 等，你可以应对各种复杂、甚至有些混乱的 Excel 文件，将数据干净、准确、高效地加载到 Pandas DataFrame 中，为后续的数据清洗、分析和可视化打下坚实的基础。

虽然本文详细介绍了 read_excel 的核心功能和常用参数，但 Pandas 库仍在不断发展。建议查阅最新的 Pandas 官方文档以获取最全面、最精确的信息。不断实践，尝试不同的参数组合来处理你遇到的实际 Excel 文件，是精通 read_excel 的最佳途径。现在，你已经拥有了深入理解并高效使用 pd.read_excel 的知识，开始你的数据探索之旅吧！

作者：admin

链接：https://hostlocvps.com/2025/04/01/python-pandas-read_excel-%e6%96%b9%e6%b3%95%ef%bc%9a%e4%bb%8e-excel-%e5%af%bc%e5%85%a5%e6%95%b0%e6%8d%ae/

文章版权归作者所有，未经允许请勿转载。

THE END

Instagram是什么？新手入门完整指南

<<上一篇

Oppo Find N 评测：重新定义折叠屏手机？

下一篇>>

Python Pandas read_excel 方法：从 Excel 导入数据

假设当前目录下有一个名为 'data.xlsx' 的 Excel 文件

从 URL (需要网络连接)

url = 'http://example.com/data.xlsx'

df2 = pd.read_excel(url)

使用 ExcelFile (推荐用于读取多个 sheet)

从内存中的 BytesIO 对象

假设 excel_bytes 是从网络请求或其他来源获取的二进制数据

with open('data.xlsx', 'rb') as f:

excel_bytes = f.read()

excel_stream = io.BytesIO(excel_bytes)

df3 = pd.read_excel(excel_stream)

读取第二个工作表 (索引为 1)

读取第一个和第三个工作表

读取所有工作表

假设文件没有表头行

假设前两行是复合表头

覆盖文件中的表头

使用名为 "CustomerID" 的列作为行索引 (假设 "CustomerID" 在 header 行中)

使用 "Category" 和 "ProductID" 两列创建多级行索引

只读取第 1, 4, 5 列 (索引 0, 3, 4)

只读取名为 "Date", "Revenue", "Region" 的列

只读取以 "ID" 结尾的列名

将所有列尝试读取为字符串

df_all_str = pd.read_excel('data.xlsx', dtype=str)

读取旧版 xls 文件

读取 ods 文件 (需要安装 odfpy)

try:

df_ods = pd.read_excel('data.ods', engine='odf')

except ImportError:

print("需要安装 'odfpy' 库来读取 .ods 文件。 pip install odfpy")

跳过特定的行，例如第 1 行和第 3 行 (索引 0, 2)

跳过所有空行 (需要更复杂的逻辑，通常在读取后处理更方便，但 callable 也可以实现)

def skip_empty_rows(row_index):

# 这里需要一种方法预先检查行是否为空，read_excel 本身不直接提供此功能

# 这个 callable 主要用于基于行号本身的逻辑跳过

pass

为 'Score' 列指定 -1 为 NaN，为 'Status' 列指定 "Unknown" 为 NaN

合并 "Year", "Month", "Day" 列解析为名为 "FullDate" 的日期列

注意：合并解析时，通常需要将新生成的日期列设为索引或后续手动处理