AI金融攻防赛:YOLO理论学习及赛题进阶思路(DataWhale组队学习)

AI金融攻防赛:YOLO理论学习及赛题进阶思路(DataWhale组队学习)物体检测是计算机视觉中的一个重要任务 它不仅需要识别图像中的对象类别 还要确定对象在图像中的位置 并以边界框的形式标注出来 类别 位置

大家好,欢迎来到IT知识分享网。

head

引言

大家好,我是GISer Liu😁,一名热爱AI技术的GIS开发者。本系列文章是我跟随DataWhale 2024年10月学习赛的AI金融攻防赛学习总结文档。本文主要讲解如何在金融场景凭证篡改检测中应用YOLO算法。我们将从模型概述、数据准备、训练流程以及模型评估等多个方面,详细介绍如何搭建一个高效的目标检测模型。希望我的经验能对大家有所帮助!💕💕😊


一、物体检测与YOLO算法介绍

1. 什么是物体检测?

物体检测是计算机视觉中的一个重要任务,它不仅需要识别图像中的对象类别,还要确定对象在图像中的位置,并以边界框的形式标注出来(类别+位置)。物体检测的应用场景包括自动驾驶、视频监控、工业检测、金融凭证核验等领域。

物体检测的一般步骤

  1. 输入:一张图像或视频帧,对其进行缩放。
  2. 特征提取:通过卷积神经网络(CNN)提取视觉特征,为检测提供基础。
  3. 候选区域生成:部分算法会生成可能含有目标的区域(如R-CNN)。
  4. 分类与边界框回归:判断区域内物体的类别并回归出精确的边界框坐标。
  5. 非极大值抑制(NMS):去除重复的边界框,保留最高置信度的框。

流程

2. YOLO算法概述

YOLO(You Only Look Once)是一种高效的实时目标检测算法,将检测任务视为一个单一的回归问题。与传统的滑动窗口方法不同,YOLO在一次网络评估中即可同时预测多个边界框和类别概率。其设计能够兼顾检测速度和精度,非常适合金融凭证篡改检测这种需要实时处理的任务。
流程

YOLO算法并行预测原理

YOLO(You Only Look Once)算法之所以能够同时预测多个边界框和类别概率,主要是因为它将目标检测任务视为一个单一的回归问题。具体来说,YOLO通过以下几个关键步骤实现这一目标:

  1. 单一网络评估:YOLO将整个图像输入到一个卷积神经网络(CNN)中,网络在一次前向传播过程中直接输出所有边界框和类别概率。这与传统的滑动窗口方法不同,滑动窗口方法需要多次评估图像的不同区域,而YOLO只需要一次评估。
  2. 网格划分:YOLO将输入图像划分为一个S×S的网格(例如,7×7)。每个网格单元负责预测在其中心附近的目标。每个网格单元可以预测多个边界框(通常是B个,例如B=2),并且每个边界框都与一个类别概率相关联。
  3. 边界框预测:每个网格单元预测B个边界框,每个边界框由5个参数组成:边界框的中心坐标(x, y)、边界框的宽度和高度(w, h),以及一个置信度(confidence)。置信度表示该边界框包含目标的概率。
  4. 类别概率预测:每个网格单元还预测C个类别概率,表示该网格单元中目标属于每个类别的概率。这些类别概率与边界框无关,而是基于网格单元的内容。
  • 置信度的计算公式为:
    Confidence = Pr(Object) × IOU(pred, truth) \text{Confidence} = \text{Pr(Object)} \times \text{IOU(pred, truth)} Confidence=Pr(Object)×IOU(pred, truth)
    • Pr(Object):表示网格单元中存在目标的概率。如果网格单元中没有目标,Pr(Object)为0;如果有目标,Pr(Object)为1。
    • IOU(pred, truth):表示预测边界框与真实边界框的交并比(Intersection over Union)。IOU的值范围在0到1之间,值越大表示预测框与真实框的重叠程度越高。


2. 类别概率(Class Probability)

  • 类别概率的计算公式为:
    Class Probability = Pr(Class i ∣ Object) \text{Class Probability} = \text{Pr(Class}_i | \text{Object)} Class Probability=Pr(ClassiObject)
    • Pr(Class_i | Object):表示在网格单元中存在目标的情况下,目标属于第i类的概率。


  • 最终预测:
    最终的预测结果是每个边界框的置信度与类别概率的乘积:
    Final Prediction = Confidence × Class Probability \text{Final Prediction} = \text{Confidence} \times \text{Class Probability} Final Prediction=Confidence×Class Probability

  • 举例:
    假设我们有一个7×7的网格,每个网格单元预测2个边界框,并且我们有3个类别(例如,人、车、自行车)。
  • 网格划分:图像被划分为7×7的网格,总共有49个网格单元。
  • 边界框预测:每个网格单元预测2个边界框,每个边界框有5个参数(x, y, w, h, confidence)。假设某个网格单元预测的两个边界框为:
    • 边界框1:(x1, y1, w1, h1, confidence1)
    • 边界框2:(x2, y2, w2, h2, confidence2)
  1. 类别概率预测
  • 最终预测:对于每个边界框,最终的预测结果是置信度与类别概率的乘积。例如:
    • 边界框1的最终预测:(confidence1 * 0.8, confidence1 * 0.1, confidence1 * 0.1)
    • 边界框2的最终预测:(confidence2 * 0.8, confidence2 * 0.1, confidence2 * 0.1)

由此,YOLO能够在一次前向传播中同时预测多个边界框和类别概率,从而实现快速且高效的目标检测。


二、YOLO版本演进与特性

YOLO算法自2015年推出以来经历了多次迭代,每一代都在速度、准确性和易用性方面进行了改进:

版本 年份 主要贡献与特点
YOLOv1 2015 将检测视为回归问题,单次网络预测物体类别与位置。
YOLOv2 2016 引入批量归一化和高分辨率分类器,支持多达9000个类别的检测。
YOLOv3 2018 使用Darknet-53骨干网络,提高了多尺度检测能力。
YOLOv4 2020 融合CSPNet和PANet等技术,提升特征提取效率。
YOLOv5 2020 用PyTorch实现,更易用,适应不同场景。
YOLOv8 2023 引入Anchor-Free检测头和新损失函数,提升性能与灵活性。
YOLOv10 2024 取消NMS操作,优化组件,实现最高性能。

三、YOLO数据集格式与标注

YOLO算法的标注格式主要使用.txt文件记录图像中的物体信息。每一行代表一个物体的类别及其边界框坐标,格式如下:

class_index x_center y_center width height 
  • class_index:类别索引,对应于类别列表中的整数。
  • x_center, y_center:物体中心的x和y坐标,归一化到[0, 1]范围。
  • width, height:物体边界框的宽度和高度,同样归一化处理。

示例配置文件 (YOLO.yaml)

path: ../dataset/ # 数据集根目录 train: images/train/ # 训练集路径 val: images/val/ # 验证集路径 # 类别数量和名称 nc: 2 # 类别数量 names: ["0", "1"] # 类别名称 

ok,看完Yolo的基本介绍后,我们根据本次比赛的baseLine代码来提出Yolo的训练过程吧!


四、金融检测YOLO模型的训练与评估流程

为了提升模型在金融场景中的应用效果,我们可以采取以下优化措施:

  1. 增加训练数据:整合更多高质量数据集,提升模型的泛化能力。
  2. 使用不同的预训练权重:在已有模型上微调,提升精度。
  3. 模型部署:将训练好的模型部署到云端或本地服务器,实时检测凭证篡改行为。

作者将在下面整理本次比赛代码流程:

1.安装必要的库
pip install ultralytics opencv-python-headless albumentations pandas numpy 

2.导入依赖库
import os import cv2 import shutil import numpy as np import pandas as pd import albumentations as A from ultralytics import YOLO print('依赖库导入成功!') 

3.定义图像增强和处理函数
# 绘制多边形到二值 mask 上 def polygon_to_mask(polygon, img_height, img_width): mask = np.zeros((img_height, img_width), dtype=np.uint8) polygon = np.array([polygon], dtype=np.int32) cv2.fillPoly(mask, polygon, 1) return mask # 增强图像并生成 mask def augment_image(img, polygons): mask = np.zeros(img.shape[:2], dtype=np.uint8) for polygon in polygons: polygon_mask = polygon_to_mask(polygon, img.shape[0], img.shape[1]) mask = np.maximum(mask, polygon_mask) transform = A.Compose([ A.HorizontalFlip(p=0.5), A.VerticalFlip(p=0.5), A.RandomRotate90(p=0.5), A.RandomBrightnessContrast(p=0.2), ], is_check_shapes=False) augmented = transform(image=img, mask=mask) return augmented['image'], augmented['mask'] # 归一化多边形坐标 def normalize_polygon(polygon, img_width, img_height): return [(x / img_width, y / img_height) for x, y in polygon] print('图像增强和归一化函数定义成功!') 

4. 处理训练集和验证集
# 加载数据集(假设已有一个包含路径和多边形数据的DataFrame:training_anno) training_anno = pd.read_csv('annotations.csv') # 替换为你的注释文件路径 # 处理训练数据集 for _, row in training_anno.iloc[:14000].iterrows(): shutil.copy(row['Path'], 'yolo_seg_dataset/train/') img = cv2.imread(row['Path']) img_height, img_width = img.shape[:2] # 数据增强 img, mask = augment_image(img, row['Polygons']) # 保存标签文件 txt_filename = os.path.join('yolo_seg_dataset/train/', row['Path'].split('/')[-1][:-4] + '.txt') with open(txt_filename, 'w') as f: for polygon in row['Polygons']: normalized_polygon = normalize_polygon(polygon, img_width, img_height) normalized_coords = ' '.join([f'{ 
            coord[0]:.3f} { 
            coord[1]:.3f}' for coord in normalized_polygon]) f.write(f'0 { 
            normalized_coords}\n') print('训练集处理完成!') # 处理验证集 for _, row in training_anno.iloc[14000:17000].iterrows(): shutil.copy(row['Path'], 'yolo_seg_dataset/valid/') img = cv2.imread(row['Path']) img_height, img_width = img.shape[:2] mask = np.zeros(img.shape[:2], dtype=np.uint8) for polygon in row['Polygons']: polygon_mask = polygon_to_mask(polygon, img.shape[0], img.shape[1]) mask = np.maximum(mask, polygon_mask) txt_filename = os.path.join('yolo_seg_dataset/valid/', row['Path'].split('/')[-1][:-4] + '.txt') with open(txt_filename, 'w') as f: for polygon in row['Polygons']: normalized_polygon = normalize_polygon(polygon, img_width, img_height) normalized_coords = ' '.join([f'{ 
            coord[0]:.3f} { 
            coord[1]:.3f}' for coord in normalized_polygon]) f.write(f'0 { 
            normalized_coords}\n') print('验证集处理完成!') 

5.创建配置文件
# 创建数据集的配置文件 data.yaml with open('yolo_seg_dataset/data.yaml', 'w') as f: data_root = os.path.abspath('yolo_seg_dataset/') f.write(f''' path: { 
             data_root} train: train val: valid names: 0: alter ''') print('配置文件创建成功!') 

6.训练模型
print('开始模型训练!') # 加载 YOLOv8 分割模型并进行训练 model = YOLO("yolov8l-seg.pt") # 使用较大的 YOLOv8-L 分割模型 results = model.train(data="./yolo_seg_dataset/data.yaml", epochs=50, imgsz=640) # 设置训练轮数为50 print('模型训练完成!') 

7.保存和验证结果
# 保存训练结果 results.save("yolo_seg_results/") # 打印训练结果摘要 print(results) 

  1. 安装依赖:安装必要的 Python 包,如 ultralyticsopencvalbumentations 等。
  2. 定义增强函数:通过 Albumentations 进行图像增强,并生成 mask。
  3. 处理数据集:将训练集和验证集中的图像及其标签进行增强和格式化。
  4. 创建配置文件:定义数据集路径和类别名称。
  5. 训练模型:加载 YOLOv8 分割模型,使用增强后的数据集进行训练,并保存结果。

相信看完以上代码后,读者对这个流程有了自己的理解;我们再来了解一下实例分割的概念与原理吧!


五、YOLO实例分割原理

1.实例分割的概念

实例分割
实例分割(Instance Segmentation)是一种计算机视觉任务,它不仅需要识别图像中的每个物体,还需要精确地分割出每个物体的像素级边界。与物体检测(Object Detection)不同,物体检测只需要识别出图像中物体的边界框(Bounding Box),而实例分割则需要进一步将每个物体的像素精确地分割出来。

上图中面积区域是实例分割的结果,框选区域是目标识别的结果;

2.实例分割与物体识别的区别

  1. 物体检测(Object Detection)
    • 任务:识别图像中物体的类别和位置。
    • 输出:每个物体的边界框(Bounding Box)和类别标签。
    • 示例:YOLO、Faster R-CNN。
  2. 实例分割(Instance Segmentation)
    • 任务:识别图像中每个物体的类别,并精确地分割出每个物体的像素级边界。
    • 输出:每个物体的像素级掩码(Mask)和类别标签。
    • 示例:Mask R-CNN、YOLOv8。

3.YOLO实例分割

YOLOv8通过扩展其基本的目标检测框架,实现了实例分割功能。以下是YOLOv8实现实例分割的关键步骤和原理:

  1. 多任务损失函数
    • 边界框损失:评估预测框与真实框之间的差异。
    • 分类损失:预测类别与真实类别的误差。
    • 分割损失:预测掩码与真实掩码的差异。
    • DFL损失:用于优化预测框的边缘精度。
  2. 特征提取
    • YOLOv8使用卷积神经网络(CNN)提取图像特征。这些特征图(feats)包含了图像的高级语义信息。
  3. 原型掩码生成
    • 在特征提取之后,YOLOv8生成一组原型掩码(proto)。这些原型掩码是基于特征图生成的,用于表示不同物体的潜在掩码形状。
  4. 预测掩码生成
    • 基于原型掩码和特征图,YOLOv8生成预测掩码(pred_masks)。这些预测掩码是每个物体的像素级掩码。
  5. 掩码组合
    • 最终的实例掩码是通过组合预测掩码和原型掩码生成的。这个过程考虑了不同目标之间的掩码重叠情况,并对重叠区域进行处理。
  6. 损失计算与优化
    • 在训练过程中,YOLOv8使用多任务损失函数来优化模型的参数。通过最小化边界框损失、分类损失、分割损失和DFL损失,模型能够同时学习物体检测和实例分割任务。

示例

  1. 物体检测
    • YOLOv8首先识别出图像中的每个物体,并生成它们的边界框。例如,它会识别出汽车、行人和自行车的边界框。
  2. 实例分割
    • 在物体检测的基础上,YOLOv8进一步生成每个物体的像素级掩码。例如,它会生成汽车、行人和自行车的像素级掩码,精确地分割出每个物体的像素。

代码如下:

import cv2 from ultralytics import YOLO from ultralytics.utils.plotting import Annotator, colors model = YOLO("yolo11n-seg.pt") # segmentation model names = model.model.names cap = cv2.VideoCapture("path/to/video/file.mp4") w, h, fps = (int(cap.get(x)) for x in (cv2.CAP_PROP_FRAME_WIDTH, cv2.CAP_PROP_FRAME_HEIGHT, cv2.CAP_PROP_FPS)) out = cv2.VideoWriter("instance-segmentation.avi", cv2.VideoWriter_fourcc(*"MJPG"), fps, (w, h)) while True: ret, im0 = cap.read() if not ret: print("Video frame is empty or video processing has been successfully completed.") break results = model.predict(im0) annotator = Annotator(im0, line_width=2) if results[0].masks is not None: clss = results[0].boxes.cls.cpu().tolist() masks = results[0].masks.xy for mask, cls in zip(masks, clss): color = colors(int(cls), True) txt_color = annotator.get_txt_color(color) annotator.seg_bbox(mask=mask, mask_color=color, label=names[int(cls)], txt_color=txt_color) out.write(im0) cv2.imshow("instance-segmentation", im0) if cv2.waitKey(1) & 0xFF == ord("q"): break out.release() cap.release() cv2.destroyAllWindows() 

通过这种方式,YOLOv8不仅能够识别图像中的物体,还能够精确地分割出每个物体的像素级边界,从而实现实例分割任务。

OK! 今天就学习到这里了!😉


七、总结

通过本次AI金融攻防赛的学习和实践,我们深入了解了凭证篡改检测这一关键问题,并成功构建了一个基于YOLOv8l的检测模型。通过数据标注、模型训练和评估,我们验证了YOLO在金融凭证检测任务中的高效性和可靠性。OK,初步解析到此结束!更多内容看后续;希望这篇博客能为您的项目提供帮助!🚀


相关链接

  • 项目地址:Git地址
  • 活动地址:AI核身之金融场景凭证篡改检测
  • 相关文档:专栏地址
  • 作者主页:GISer Liu-CSDN博客

thank_watch

如果觉得我的文章对您有帮助,记得三连+关注哦!🌟

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/137816.html

(0)
上一篇 2025-06-17 17:45
下一篇 2025-06-17 18:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信