使用Python和OpenCV进行计算机视觉开发

2025-2-6

使用 Python 和 OpenCV 进行计算机视觉开发

计算机视觉是一个令人兴奋的领域，它使计算机能够“看到”并理解图像和视频。Python 凭借其丰富的库和易用性，已成为计算机视觉开发的首选语言之一。而 OpenCV (Open Source Computer Vision Library) 则是一个强大的开源库，提供了大量用于图像处理、分析和计算机视觉任务的函数和工具。本文将深入探讨如何结合 Python 和 OpenCV 进行计算机视觉开发。

1. 为什么选择 Python 和 OpenCV？

Python 的优势:
- 易学易用: Python 语法简洁明了，易于学习和使用，即使是初学者也能快速上手。
- 丰富的库: Python 拥有庞大的生态系统，包括 NumPy（用于数值计算）、Matplotlib（用于数据可视化）等，与 OpenCV 配合使用，可以更高效地进行开发。
- 跨平台: Python 可以在 Windows、macOS 和 Linux 等多个平台上运行。
- 社区支持: Python 拥有庞大而活跃的社区，可以轻松找到帮助和资源。
OpenCV 的优势:
- 开源免费: OpenCV 是一个开源项目，可以免费使用，无需担心许可问题。
- 功能强大: OpenCV 提供了广泛的图像处理和计算机视觉功能，涵盖了从基本操作到高级算法的各个方面。
- 性能优化: OpenCV 的核心部分是用 C/C++ 编写的，并进行了高度优化，可以实现快速高效的图像处理。
- 多语言支持: OpenCV 提供了多种语言的接口，包括 Python、C++、Java 等。
- 广泛应用: OpenCV 已被广泛应用于各种领域，如图像识别、目标检测、人脸识别、视频分析等。

2. 安装和配置

在开始之前，需要先安装 Python 和 OpenCV。

安装 Python:
- 建议使用 Anaconda 或 Miniconda 来管理 Python 环境。可以从 Anaconda 官网下载并安装。
- 创建一个新的虚拟环境（可选，但强烈推荐）：
  bash conda create -n cv python=3.8 # 创建一个名为 cv，Python 版本为 3.8 的环境 conda activate cv # 激活环境
安装 OpenCV:
- 使用 pip 安装：
  bash pip install opencv-python
- 如果需要包含 contrib 模块（包含一些额外的、非核心的算法），可以安装：
  bash pip install opencv-contrib-python
安装其他常用库 (可选):
pip install numpy matplotlib

3. OpenCV 基础

读取和显示图像:

```python
import cv2

读取图像

img = cv2.imread('image.jpg') # 将 'image.jpg' 替换为你的图像文件路径

检查图像是否成功读取

if img is None:
print("Error: 图像读取失败")
else:
# 显示图像
cv2.imshow('Image', img)
```
# 等待按键 (0 表示无限等待)
cv2.waitKey(0)

# 销毁窗口
cv2.destroyAllWindows()
```
```
图像基本操作:

```python
import cv2
import numpy as np

img = cv2.imread('image.jpg')

获取图像尺寸

height, width, channels = img.shape
print(f"图像尺寸: 宽={width}, 高={height}, 通道数={channels}")

访问像素值

pixel = img[100, 100] # 获取 (100, 100) 处的像素值 (B, G, R)
print(f"(100, 100) 处的像素值: {pixel}")

修改像素值

img[100, 100] = [255, 255, 255] # 将 (100, 100) 处的像素设置为白色

裁剪图像

cropped_img = img[50:200, 100:300] # 裁剪出区域 [y1:y2, x1:x2]

调整图像大小

resized_img = cv2.resize(img, (500, 400)) # 调整为 500x400
resized_img_interp = cv2.resize(img, (500, 400), interpolation=cv2.INTER_AREA) #使用不同的插值方法

转换为灰度图像

gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

保存图像

cv2.imwrite('gray_image.jpg', gray_img)

显示多张图片

cv2.imshow("Original", img)
cv2.imshow("Cropped", cropped_img)
cv2.imshow("Resized", resized_img)
cv2.imshow("Resized with INTER_AREA", resized_img_interp)
cv2.imshow("Gray", gray_img)

cv2.waitKey(0)
cv2.destroyAllWindows()

```
颜色空间转换:
OpenCV默认读取的彩色图像是 BGR 格式, 而不是 RGB。

```python
import cv2

img = cv2.imread('image.jpg')

BGR 转换为 RGB

rgb_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

BGR 转换为 HSV

hsv_img = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)

BGR 转换为 LAB

lab_img = cv2.cvtColor(img, cv2.COLOR_BGR2LAB)

cv2.imshow("Original BGR", img)
cv2.imshow("RGB", rgb_img)
cv2.imshow("HSV", hsv_img)
cv2.imshow("LAB", lab_img)

cv2.waitKey(0)
cv2.destroyAllWindows()

```

4. 图像处理技术

滤波 (平滑/模糊):
- 均值滤波: cv2.blur()
- 高斯滤波: cv2.GaussianBlur()
- 中值滤波: cv2.medianBlur()
- 双边滤波: cv2.bilateralFilter()
```python
import cv2

img = cv2.imread('noisy_image.jpg') # 假设有一张名为 noisy_image.jpg 的带噪声图像

均值滤波

blur_img = cv2.blur(img, (5, 5)) # 使用 5x5 的核

高斯滤波

gaussian_blur_img = cv2.GaussianBlur(img, (5, 5), 0) # 使用 5x5 的核，标准差为 0

中值滤波

median_blur_img = cv2.medianBlur(img, 5) # 使用 5x5 的核

双边滤波

bilateral_filter_img = cv2.bilateralFilter(img, 9, 75, 75) # 邻域直径为 9，颜色空间标准差和空间标准差均为 75

cv2.imshow("Original", img)
cv2.imshow("Blur", blur_img)
cv2.imshow("Gaussian Blur", gaussian_blur_img)
cv2.imshow("Median Blur", median_blur_img)
cv2.imshow("Bilateral Filter", bilateral_filter_img)

cv2.waitKey(0)
cv2.destroyAllWindows()
`` * **边缘检测:** * **Sobel 算子:**cv2.Sobel()* **Scharr 算子:**cv2.Scharr()* **Laplacian 算子:**cv2.Laplacian()* **Canny 边缘检测:**cv2.Canny()` (常用且效果较好)

```python
import cv2

img = cv2.imread('image.jpg', cv2.IMREAD_GRAYSCALE) # 以灰度模式读取

Sobel 边缘检测

sobelx = cv2.Sobel(img, cv2.CV_64F, 1, 0, ksize=3) # x 方向
sobely = cv2.Sobel(img, cv2.CV_64F, 0, 1, ksize=3) # y 方向
sobel_abs_x = cv2.convertScaleAbs(sobelx) # 计算绝对值
sobel_abs_y = cv2.convertScaleAbs(sobely)
sobel_combined = cv2.addWeighted(sobel_abs_x, 0.5, sobel_abs_y, 0.5, 0)

Laplacian 边缘检测

laplacian = cv2.Laplacian(img, cv2.CV_64F)
laplacian_abs = cv2.convertScaleAbs(laplacian)

Canny 边缘检测

edges = cv2.Canny(img, 50, 150) # 低阈值 50，高阈值 150

cv2.imshow("Original", img)
cv2.imshow("Sobel X", sobel_abs_x)
cv2.imshow("Sobel Y", sobel_abs_y)
cv2.imshow("Sobel Combined", sobel_combined)
cv2.imshow("Laplacian", laplacian_abs)
cv2.imshow("Canny Edges", edges)

cv2.waitKey(0)
cv2.destroyAllWindows()
```
形态学操作:
- 腐蚀: cv2.erode()
- 膨胀: cv2.dilate()
- 开运算: cv2.morphologyEx(img, cv2.MORPH_OPEN, kernel)
- 闭运算: cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)
- 梯度: cv2.morphologyEx(img, cv2.MORPH_GRADIENT, kernel)
- 顶帽: cv2.morphologyEx(img, cv2.MORPH_TOPHAT, kernel)
- 黑帽: cv2.morphologyEx(img, cv2.MORPH_BLACKHAT, kernel)
```python
import cv2
import numpy as np

img = cv2.imread('image.jpg', cv2.IMREAD_GRAYSCALE)

创建结构元素 (核)

kernel = np.ones((5, 5), np.uint8) # 5x5 的矩形核

腐蚀

erosion = cv2.erode(img, kernel, iterations=1)

膨胀

dilation = cv2.dilate(img, kernel, iterations=1)

开运算

opening = cv2.morphologyEx(img, cv2.MORPH_OPEN, kernel)

闭运算

closing = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)

cv2.imshow("Original", img)
cv2.imshow("Erosion", erosion)
cv2.imshow("Dilation", dilation)
cv2.imshow("Opening", opening)
cv2.imshow("Closing", closing)

cv2.waitKey(0)
cv2.destroyAllWindows()

```
阈值处理:
- 简单阈值: cv2.threshold()
- 自适应阈值: cv2.adaptiveThreshold()
- Otsu's 二值化: cv2.threshold() (与 cv2.THRESH_OTSU 结合使用)
```python
import cv2

img = cv2.imread('image.jpg', cv2.IMREAD_GRAYSCALE)

简单阈值

ret, thresh1 = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY) #大于127的设为255, 小于的设为0
ret, thresh2 = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY_INV) #与THRESH_BINARY相反
ret, thresh3 = cv2.threshold(img, 127, 255, cv2.THRESH_TRUNC) # 大于127的设为127, 小于的不变
ret, thresh4 = cv2.threshold(img, 127, 255, cv2.THRESH_TOZERO) #大于127的不变, 小于的设为0
ret, thresh5 = cv2.threshold(img, 127, 255, cv2.THRESH_TOZERO_INV) # 与THRESH_TOZERO相反

Otsu's 二值化

ret, thresh_otsu = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU) #阈值设为0, 算法自动计算

自适应阈值

adaptive_thresh = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 11, 2) # 使用平均值
adaptive_thresh_gauss = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2) #使用高斯加权平均值

cv2.imshow("Original", img)
cv2.imshow("THRESH_BINARY", thresh1)
cv2.imshow("THRESH_BINARY_INV", thresh2)
cv2.imshow("THRESH_TRUNC", thresh3)
cv2.imshow("THRESH_TOZERO", thresh4)
cv2.imshow("THRESH_TOZERO_INV", thresh5)
cv2.imshow("Otsu's Thresholding", thresh_otsu)
cv2.imshow("Adaptive Mean", adaptive_thresh)
cv2.imshow("Adaptive Gaussian", adaptive_thresh_gauss)

cv2.waitKey(0)
cv2.destroyAllWindows()

```
* 直方图均衡化
用来增强图像的对比度。

```python
import cv2
img = cv2.imread("low_contrast.jpg", cv2.IMREAD_GRAYSCALE) # 假设有一张对比度较低的灰度图像

直方图均衡化

equ = cv2.equalizeHist(img)

cv2.imshow("Original", img)
cv2.imshow("Equalized", equ)
cv2.waitKey(0)
cv2.destroyAllWindows()

```

5. 计算机视觉任务

特征检测和描述:
- Harris 角点检测: cv2.cornerHarris()
- Shi-Tomasi 角点检测: cv2.goodFeaturesToTrack()
- SIFT (尺度不变特征变换): cv2.SIFT_create() (需要 opencv-contrib-python)
- SURF (加速稳健特征): cv2.SURF_create() (需要 opencv-contrib-python, 且可能有专利问题)
- ORB (定向 FAST 和旋转 BRIEF): cv2.ORB_create()
```python
import cv2
import numpy as np

img = cv2.imread('building.jpg') # 假设有一张名为 building.jpg 的包含建筑物的图像
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

Harris 角点检测

dst = cv2.cornerHarris(gray, 2, 3, 0.04)
dst = cv2.dilate(dst, None) # 膨胀以标记角点
img_harris = img.copy()
img_harris[dst > 0.01 * dst.max()] = [0, 0, 255] # 将角点标记为红色

Shi-Tomasi 角点检测

corners = cv2.goodFeaturesToTrack(gray, 25, 0.01, 10) #最多25个角点, 质量水平0.01, 角点间最小距离10
corners = np.int0(corners)
img_shi_tomasi = img.copy()
for i in corners:
x, y = i.ravel()
cv2.circle(img_shi_tomasi, (x, y), 3, (0, 255, 0), -1) # 将角点标记为绿色

ORB 特征检测

orb = cv2.ORB_create()
keypoints, descriptors = orb.detectAndCompute(gray, None) #关键点, 描述符
img_orb = cv2.drawKeypoints(img, keypoints, None, color=(255, 0, 0), flags=0) #绘制关键点

cv2.imshow("Harris Corner", img_harris)
cv2.imshow("Shi-Tomasi Corner", img_shi_tomasi)
cv2.imshow("ORB Features", img_orb)

cv2.waitKey(0)
cv2.destroyAllWindows()

```
目标检测 (使用预训练模型):
- Haar 级联分类器 (用于人脸检测等): cv2.CascadeClassifier()
- HOG + SVM: (行人检测等)
- DNN 模块 (深度学习模型): cv2.dnn.readNetFrom...() (支持多种框架, 如 TensorFlow, Caffe, Darknet (YOLO))
```python
import cv2

加载 Haar 级联分类器 (人脸检测)

face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')

读取图像

img = cv2.imread('faces.jpg') # 假设有一张名为 faces.jpg 的包含多张人脸的图像
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

检测人脸

faces = face_cascade.detectMultiScale(gray, scaleFactor=1.1, minNeighbors=5, minSize=(30, 30))

在图像上绘制矩形框

for (x, y, w, h) in faces:
cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2)

显示结果

cv2.imshow('Face Detection', img)
cv2.waitKey(0)
cv2.destroyAllWindows()
```

使用 YOLOv8 进行目标检测(需要安装 ultralytics 包 pip install ultralytics):

```python
from ultralytics import YOLO
import cv2

加载 YOLOv8 模型

model = YOLO('yolov8n.pt') # 使用预训练的 yolov8n 模型

读取图像

img = cv2.imread("image.jpg")

进行目标检测

results = model(img)

处理检测结果

for r in results:
boxes = r.boxes
for box in boxes:
# 获取边界框坐标
x1, y1, x2, y2 = box.xyxy[0]
x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)
```
    # 获取置信度
    confidence = box.conf[0]

    # 获取类别 ID 和类别名称
    cls = int(box.cls[0])
    class_name = model.names[cls] if model.names else f"Class {cls}"

    # 绘制边界框和标签
    if confidence > 0.5:  # 设置置信度阈值
        cv2.rectangle(img, (x1, y1), (x2, y2), (0, 255, 0), 2)
        label = f"{class_name}: {confidence:.2f}"
        cv2.putText(img, label, (x1, y1 - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.6, (0, 255, 0), 2)
```
显示结果

cv2.imshow('YOLOv8 Object Detection', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

```
视频处理:

```python
import cv2

打开摄像头

cap = cv2.VideoCapture(0) # 0 表示默认摄像头

检查摄像头是否成功打开

if not cap.isOpened():
print("Error: 无法打开摄像头")
exit()

循环读取视频帧

while True:
# 读取一帧
ret, frame = cap.read()
```
# 检查是否成功读取帧
if not ret:
    print("Error: 无法读取视频帧")
    break

# 在帧上进行处理 (例如，转换为灰度)
gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)

# 显示帧
cv2.imshow('Video', gray)

# 按 'q' 键退出
if cv2.waitKey(1) & 0xFF == ord('q'):
    break
```
释放摄像头

cap.release()

销毁窗口

cv2.destroyAllWindows()
```

6. 高级主题

相机标定和三维重建:
光流:
机器学习与计算机视觉: (例如, 使用 scikit-learn 进行图像分类)
深度学习与计算机视觉: (使用 TensorFlow, PyTorch, Keras 等框架构建和训练卷积神经网络 (CNN) 进行图像识别、目标检测、语义分割等)
CUDA 加速：如果你的电脑有 NVIDIA 显卡，并且安装了 CUDA 和 cuDNN，可以使用 OpenCV 的 CUDA 模块来加速图像处理。

7. 总结

Python 和 OpenCV 的结合为计算机视觉开发提供了强大而灵活的工具。通过学习和掌握 OpenCV 提供的各种函数和技术，可以构建出各种各样的计算机视觉应用。这只是一个入门指南，希望能够帮助你开始使用 Python 和 OpenCV 进行计算机视觉开发。随着你不断深入学习和实践，你会发现更多有趣和强大的功能。最重要的是多动手实践，多做项目，在实践中学习和提高。

作者：admin

链接：https://hostlocvps.com/2025/02/06/%e4%bd%bf%e7%94%a8python%e5%92%8copencv%e8%bf%9b%e8%a1%8c%e8%ae%a1%e7%ae%97%e6%9c%ba%e8%a7%86%e8%a7%89%e5%bc%80%e5%8f%91/

文章版权归作者所有，未经允许请勿转载。

THE END

使用DjangoRESTFramework开发RESTfulAPI：完整教程

<<上一篇

免费Shadowrocket节点分享：高速稳定，持续更新（慎用）

下一篇>>

使用Python和OpenCV进行计算机视觉开发

读取图像

检查图像是否成功读取

获取图像尺寸

访问像素值

修改像素值

裁剪图像

调整图像大小

转换为灰度图像

保存图像

显示多张图片

BGR 转换为 RGB

BGR 转换为 HSV

BGR 转换为 LAB

均值滤波

高斯滤波

中值滤波

双边滤波

Sobel 边缘检测

Laplacian 边缘检测

Canny 边缘检测

创建结构元素 (核)

腐蚀

膨胀

开运算

闭运算

简单阈值

Otsu's 二值化

自适应阈值

直方图均衡化

Harris 角点检测

Shi-Tomasi 角点检测

ORB 特征检测

加载 Haar 级联分类器 (人脸检测)

读取图像

检测人脸

在图像上绘制矩形框

显示结果

加载 YOLOv8 模型

读取图像

进行目标检测

处理检测结果

显示结果

打开摄像头

检查摄像头是否成功打开

循环读取视频帧

释放摄像头

销毁窗口