专利 基于改进YOLOv5的多任务全景驾驶感知方法与系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211141578.X (22)申请日 2022.09.20 (71)申请人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫街200号 (72)发明人戚湧　曾鑫　 (74)专利代理机构南京知识律师事务所 32 207 专利代理师熊敏敏 (51)Int.Cl. G06V 20/56(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/40(2022.01) G06V 10/20(2022.01) G06V 10/26(2022.01)G06N 3/04(2006.01) (54)发明名称基于改进YOLOv5的多任务全景驾驶感知方法与系统 (57)摘要本发明属于自动驾驶技术领域，公开了一种基于改进YOLOv5的多任务全景驾驶感知方法与系统。本发明的方法包括对数据集中的图像进行图片预处理，得到输入图像；利用改进YOLOv5的主干网络提取输入图像的特征，得到特征图；主干网络由将YOLOv5主干网络中C3模块替换为反转残差瓶颈模块得到；将特征图输入颈部网络得到的特征图与主干网络得到的特征图融合；将融合特征图输入到检测头进行交通目标检测；将颈部网络的特征图输入到分支网络，进行车道线检测和可行驶区域分割。采用本发明能够实时、高精度的处理车辆周围场景信息，帮助车辆决策系统做出判断，能够同时进行交通目标检测、可行驶区域分割和车道线检测这三个任务。权利要求书2页说明书11页附图3页 CN 115223130 A 2022.10.21 CN 115223130 A 1.一种基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，包括；采用YOLOv4的图片预处理方法对车载摄像头采集的视频中每一帧图像进行图片预处理，得到输入图像；利用改进YOLOv5 的主干网络提取所述输入图像的特征，得到特征图；所述改进YOLOv5 的主干网络，由将YOLOv5的主干网络中C3模块替换为反转残差瓶颈模块得到，所述反转残差瓶颈模块由x个反转残差瓶颈组件结构组成，其中， x为自然数；所述反转残差瓶颈组件结构由三层组成，第一层是卷积组件，该层将低维空间映射到高维空间进行维度扩展；第二层是深度可分离卷积层，采用深度可分离卷积进行空间过滤；第三层是卷积组件，该层将高维空间映射到低维空间；将所述改进YOLOv5的主干网络得到的特征图输入到颈部网络，在颈部网络中经空间金字塔池SPP网络和特征金字塔网络FPN得到的特征图与所述改进YOLOv5的主干网络得到的特征图融合，得到融合的特征图；将所述融合的特征图输入到检测头，经路径聚合网络PAN得到多尺度融合特征图，对所述多尺度融合特征图采用YOLOv4基于锚定的多尺度检测方案，进行交通目标检测；将所述经空间金字塔池SPP网络和特征金字塔网络FPN得到的特征图中底层特征图输入到分支网络，利用分支网络进行车道线检测和可行驶区域分割。 2.根据权利要求1所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，所述图片预处理还包括将所述车载摄像头采集的视频中每一帧图像从宽度 ×高度×通道数为1280×720×3的图像调整成宽度 ×高度×通道数为640 ×384×3的图像。 3.根据权利要求1所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，所述改进YOLOv5的主干网络中采用三个反转残差瓶颈模块；第一个反转残差瓶颈模块为CSPI_1，由卷积组件Conv和一个反转残差瓶颈组件结构经过Concat操作组成；第二个反转残差瓶颈模块为CSPI_3，由卷积组件Conv和三个反转残差瓶颈组件结构经过Concat操作组成；第三个反转残差瓶颈模块为CSPI_3，由卷积组件Conv和三个反转残差瓶颈组件结构经过Concat操作组成；其中，卷积组件Co nv由conv函数、 Bn 函数、 SiLU函数三者组成；所述利用改进YOLOv5的主干网络提取所述输入图像的特征，得到的特征图包括特征图 out1、特征图out2和特征图out3；所述特征图out1，为预处理图片经过Focus操作后又经过Conv、 CSPI_1操作，再经过 Conv、 CSPI_3操作后得到的特征图；所述特征图out2，为所述特征图out1经过Conv、 CSPI_3操作后得到的特征图；所述特征图out3，为所述特征图out2经过Conv操作后得到的特征图。 4.根据权利要求3所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，在所述特征金字塔网络FPN中，由空间金字塔池SPP网络输入的特征图经过反转残差瓶颈模块，再经过Conv操作后得到高层特征图f3，输出到检测头；所述高层特征图f3经过上采样，再与所述特征图out2进行Concat操作得到的特征图，经过反转残差瓶颈模块，再经过Conv操作后得到中层特征图f2，输出到检测头；权　利　要　求　书 1/2 页 2 CN 115223130 A 2所述中层特征图f2经过上采样，再与所述特征图out1进行Concat操作得到底层特征图 f1，输出到检测头。 5.根据权利要求4所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，所述分支网络由四层卷积组件、三层 BottleneckCS P模块和三层上采样层组成；所述利用分支网络进行车道线检测和可行驶区域分割包括：将所述特征金字塔网络 FPN中底层特征图f1在分支网络中经过三层上采样层后，恢复成大小为W ×H×4的特征图，其中， W为输入图像宽度， H为输入图像高度，特征图中特征点与输入图像中像素点一一对应， 4表示特征图中每个特征点有四个取值；所述分支网络将所述大小为W ×H×4的特征图切分成两个大小为W ×H×2的特征图，其中一个大小为W ×H×2的特征图表示输入图像中每个像素点对于可驾驶区域对应背景的概率，用来预测可行驶区域，预测所得的可行驶区域作为可行使区域分割的结果；另一个大小为W ×H×2的特征图表示输入图像中每个像素点对于车道线对应背景的概率，用来预测车道线，预测所得的车道线作为车道线检测的结果；其中， W为输入图像宽度， H为输入图像高度， 2表示该特征图中每个特征点有两个取值，用这两个取值分别表示该特征点相应像素点有目标的概率、该特征点相应像素点无目标的概率。 6.根据权利要求5所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，在所述上采样层中使用最近插值方法进行上采样处理。 7.一种基于改进YOLOv5的多任务全景驾驶感知系统，实现根据权利要求1至6任一所述的基于改进YOLOv5的多任务全景驾驶感知方法，其特征在于，包括：人机交互模块，用于提供预留输入接口，获得格式正确的输入数据；多任务检测模块，用于根据所述人机交互模块获得的输入数据，分别完成交通目标检测、车道线检测和可行驶区域分割这三个任务，将交通目标检测、车道线检测和可行驶区域分割的结果输出给显示模块；显示模块，显示所述输入数据，和多任务检测模块输出的交通目标检测、车道线检测和可行驶区域分割的结果。 8.根据权利要求7所述的基于改进YOLOv5的多任务全景驾驶感知系统，其特征在于，还包括：交通目标检测模块，用于完成交通目标检测任务，将交通目标检测结果、交通目标类别和交通目标检测精确率输出给显示模块；车道线检测模块，用于完成车道线检测任务，将车道线检测结果和车道线检测精确率输出给显示模块；可行驶区域分割模块，用于完成可行驶区域分割任务，将可行使区域分割结果输出给显示模块；所述显示模块，能够显示交通目标类别、交通目标检测精确率或车道线检测精确率。 9.一种基于改进YOLOv5的多任务全景驾驶感知设备，其特征在于，所述设备包括存储器和处理器；所述存储器存储有实现基于改进Y OLOv5的多任务全景驾驶感知方法的计算机程序，所述处理器执行所述计算机程序，以实现根据权利要求1 ‑6任一所述方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时实现根据权利要求1 ‑6任一所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115223130 A 3

专利 基于改进YOLOv5的多任务全景驾驶感知方法与系统

专利基于改进YOLOv5的多任务全景驾驶感知方法与系统