pandas从入门到精通：数据可视化与分析完整指南

2025-3-4

Pandas从入门到精通：数据可视化与分析完整指南

Pandas 是 Python 数据科学生态系统中最受欢迎的库之一，以其强大的数据处理和分析能力而闻名。它提供了快速、灵活且富有表现力的数据结构，旨在使“关系型”或“标签型”数据的操作既简单又直观。本文将带您深入了解 Pandas，从基础入门到高级应用，重点介绍数据可视化和分析技术，助您成为 Pandas 专家。

一、Pandas 基础入门

1.1 Pandas 核心数据结构

Pandas 主要有两种核心数据结构：Series 和 DataFrame。

Series： 类似于一维数组或列表，由一组数据以及与之相关的一组索引（标签）组成。

```python
import pandas as pd

创建一个 Series

s = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print(s)
```

DataFrame： 是一个二维的表格型数据结构，可以看作是由多个 Series 组成的。它既有行索引，也有列索引，可以被看作是一个 Excel 表格或者 SQL 表。

```python

创建一个 DataFrame

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 28, 22],
'City': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
print(df)
```

1.2 数据读取与写入

Pandas 支持多种数据格式的读取和写入，包括 CSV、Excel、SQL 数据库、JSON、HTML 等。

```python

从 CSV 文件读取数据

df = pd.read_csv('data.csv')

将 DataFrame 写入 CSV 文件

df.to_csv('output.csv', index=False) # index=False 表示不写入行索引

从 Excel 文件读取数据

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

将 DataFrame 写入 Excel 文件

df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)
```

1.3 数据基本操作

Pandas 提供了丰富的数据操作方法，包括：

数据选择： 通过索引、标签或条件选择数据。

```python

选择某一列

print(df['Name'])

选择某几行

print(df[0:2])

通过标签选择数据

print(df.loc[0:2, ['Name', 'Age']])

通过位置选择数据

print(df.iloc[0:2, 0:2])

通过条件选择数据

print(df[df['Age'] > 25])
```
数据清洗： 处理缺失值、重复值、异常值等。

```python

处理缺失值

df.dropna() # 删除包含缺失值的行
df.fillna(value=0) # 用 0 填充缺失值

删除重复值

df.drop_duplicates()

处理异常值（例如，替换年龄大于 100 的值为 NaN）

df.loc[df['Age'] > 100, 'Age'] = None
```
数据排序：

```python

按年龄升序排序

df.sort_values(by='Age', ascending=True)
```
数据分组：

```python

按城市分组，并计算每个城市的平均年龄

df.groupby('City')['Age'].mean()
```
数据合并：

```python

使用 concat() 函数进行数据拼接

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
pd.concat([df1, df2])

使用 merge() 函数进行数据合并（类似于 SQL 的 JOIN 操作）

df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E'], 'value': [4, 5, 6]})
pd.merge(df1, df2, on='key', how='left') # 左连接
```

二、Pandas 数据可视化

Pandas 自身集成了 Matplotlib 库的功能，可以方便地进行数据可视化。

2.1 基本绘图

Pandas 的 plot() 方法可以绘制各种常见的图形，例如：

折线图：

python df['Age'].plot(kind='line')
柱状图：

python df['Age'].plot(kind='bar')
直方图：

python df['Age'].plot(kind='hist')
散点图：

python df.plot(kind='scatter', x='Age', y='Salary')
饼图：
python df['City'].value_counts().plot(kind='pie')

2.2 自定义绘图

您可以通过设置 plot() 方法的参数来自定义图形的外观，例如：

设置标题、坐标轴标签：

python df['Age'].plot(kind='line', title='Age Distribution', xlabel='Index', ylabel='Age')
设置颜色、线型、标记：

python df['Age'].plot(kind='line', color='red', linestyle='--', marker='o')
设置图例：

python df[['Age', 'Salary']].plot(kind='line', legend=True)
* 设置图例的位置
python df[['Age', 'Salary']].plot(kind='line', legend=True, loc = 'upper left')

2.3 高级绘图

除了基本绘图外，Pandas 还支持一些更高级的绘图类型，例如：

箱线图：

python df.boxplot(column='Age', by='City')
面积图：

python df[['Age', 'Salary']].plot(kind='area')
核密度估计图：

python df['Age'].plot(kind='kde')

如果您需要更复杂的图形或更精细的控制，可以直接使用 Matplotlib 或 Seaborn 库进行绘图。

三、Pandas 数据分析

Pandas 不仅可以用于数据处理和可视化，还可以进行各种数据分析。

3.1 描述性统计

Pandas 提供了 describe() 方法来计算数据的描述性统计量，例如：

python print(df.describe())

这将输出包括计数、均值、标准差、最小值、最大值、25% 分位数、50% 分位数（中位数）、75% 分位数等在内的统计信息。

3.2 相关性分析

Pandas 的 corr() 方法可以计算数据之间的相关系数：

python print(df.corr())

这将输出一个相关系数矩阵，显示不同列之间的线性相关程度。

3.3 数据透视表

Pandas 的 pivot_table() 函数可以创建数据透视表，类似于 Excel 中的数据透视表功能：

```python

创建一个数据透视表，计算每个城市不同年龄段的平均工资

pivot_table = pd.pivot_table(df, values='Salary', index='City', columns='AgeGroup', aggfunc='mean')
print(pivot_table)
```

3.4 时间序列分析

如果您的数据包含时间序列信息，Pandas 提供了强大的时间序列分析功能。

```python

将日期字符串转换为日期类型

df['Date'] = pd.to_datetime(df['Date'])

设置日期为索引

df = df.set_index('Date')

按月对数据进行重采样，并计算每月销售额的总和

monthly_sales = df['Sales'].resample('M').sum()

计算移动平均

df['Sales_MA'] = df['Sales'].rolling(window=3).mean()
```

四、Pandas 高级技巧

4.1 多级索引

Pandas 支持多级索引（MultiIndex），可以创建更复杂的数据结构。

```python

创建一个具有多级索引的 DataFrame

index = pd.MultiIndex.from_tuples([('A', 1), ('A', 2), ('B', 1), ('B', 2)], names=['Letter', 'Number'])
data = {'Value': [10, 20, 30, 40]}
df = pd.DataFrame(data, index=index)
print(df)

通过多级索引选择数据

print(df.loc[('A', 2)])
```

4.2 数据分组的 apply() 方法

Pandas 中，groupby() 方法通常与聚合函数（如 mean(), sum(), count() 等）一起使用，用于计算每个分组的统计量。然而，有时您可能需要对每个分组执行更复杂的操作，而不仅仅是简单的聚合。这时，apply() 方法就派上用场了。

apply() 方法允许您将一个自定义函数应用于每个分组，从而实现更灵活的数据处理。

```python
import pandas as pd
import numpy as np

创建一个示例 DataFrame

data = {'Group': ['A', 'A', 'B', 'B', 'A', 'B'],
'Value': [1, 2, 3, 4, 5, 6]}
df = pd.DataFrame(data)

定义一个自定义函数，计算每个分组的范围（最大值 - 最小值）

def calculate_range(group):
return group.max() - group.min()

使用 apply() 方法将自定义函数应用于每个分组

result = df.groupby('Group')['Value'].apply(calculate_range)
print(result)

Group

A 4

B 3

Name: Value, dtype: int64

```

4.3 性能优化

当处理大型数据集时，Pandas 的性能可能会成为一个问题。以下是一些优化 Pandas 代码性能的技巧：

向量化操作： 尽量使用 Pandas 内置的向量化操作，避免使用循环。
选择合适的数据类型： 使用更节省内存的数据类型，例如 int32 代替 int64。
使用 .loc 和 .iloc 进行赋值： 当需要修改 DataFrame 中的值时，使用 .loc 和 .iloc 比直接使用索引更高效。
使用 eval() 和 query()： 对于复杂的表达式计算和数据筛选，eval() 和 query() 可以提高性能。
考虑使用 Dask： 对于非常大的数据集，可以考虑使用 Dask 库，它可以在多核 CPU 或分布式集群上并行处理数据。

五、更广阔的天地

本文只是 Pandas 学习之旅的起点。掌握了这些基础知识和技巧后，您可以进一步探索 Pandas 的更多高级功能，例如：

自定义函数： 编写自己的函数，并将其应用于 Pandas 对象。
样式设置： 使用 Pandas 的样式功能，创建更具表现力的表格。
与其他库的集成： 将 Pandas 与其他数据科学库（如 Scikit-learn、Statsmodels）结合使用，构建更强大的数据分析流程。

通过不断学习和实践，您将能够充分利用 Pandas 的强大功能，解决各种数据分析难题。祝您在数据科学的道路上越走越远！

这篇文章详细介绍了 Pandas 在数据可视化和数据分析方面的应用，希望能帮助到你！

作者：admin

链接：https://hostlocvps.com/2025/03/04/pandas%e4%bb%8e%e5%85%a5%e9%97%a8%e5%88%b0%e7%b2%be%e9%80%9a%ef%bc%9a%e6%95%b0%e6%8d%ae%e5%8f%af%e8%a7%86%e5%8c%96%e4%b8%8e%e5%88%86%e6%9e%90%e5%ae%8c%e6%95%b4%e6%8c%87%e5%8d%97/

文章版权归作者所有，未经允许请勿转载。

THE END

brew是什么？详细解析Homebrew功能

<<上一篇

体验极速访问：ClashX Pro代理工具评测

下一篇>>

pandas从入门到精通：数据可视化与分析完整指南

Pandas从入门到精通：数据可视化与分析完整指南

一、Pandas 基础入门

1.1 Pandas 核心数据结构

创建一个 Series

创建一个 DataFrame

1.2 数据读取与写入

从 CSV 文件读取数据

将 DataFrame 写入 CSV 文件

从 Excel 文件读取数据

将 DataFrame 写入 Excel 文件

1.3 数据基本操作

选择某一列

选择某几行

通过标签选择数据

通过位置选择数据

通过条件选择数据

处理缺失值

删除重复值

处理异常值（例如，替换年龄大于 100 的值为 NaN）

按年龄升序排序

按城市分组，并计算每个城市的平均年龄

使用 concat() 函数进行数据拼接

使用 merge() 函数进行数据合并（类似于 SQL 的 JOIN 操作）

二、Pandas 数据可视化

2.1 基本绘图

2.2 自定义绘图

2.3 高级绘图

三、Pandas 数据分析

3.1 描述性统计

3.2 相关性分析

3.3 数据透视表

创建一个数据透视表，计算每个城市不同年龄段的平均工资

3.4 时间序列分析

将日期字符串转换为日期类型

设置日期为索引

按月对数据进行重采样，并计算每月销售额的总和

计算移动平均

四、Pandas 高级技巧

4.1 多级索引

创建一个具有多级索引的 DataFrame

通过多级索引选择数据

4.2 数据分组的 apply() 方法

创建一个示例 DataFrame

定义一个自定义函数，计算每个分组的范围（最大值 - 最小值）

使用 apply() 方法将自定义函数应用于每个分组

Group

A 4

B 3

Name: Value, dtype: int64

4.3 性能优化

五、更广阔的天地

通过不断学习和实践，您将能够充分利用 Pandas 的强大功能，解决各种数据分析难题。祝您在数据科学的道路上越走越远！