(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210785742.4
(22)申请日 2022.07.05
(71)申请人 福州大学
地址 350108 福建省福州市闽侯县福州大
学城乌龙江北 大道2号福州大 学
(72)发明人 柯逍 卢恺翔
(74)专利代理 机构 福州元创专利商标代理有限
公司 35100
专利代理师 丘鸿超 蔡学俊
(51)Int.Cl.
G06V 20/62(2022.01)
G06V 10/82(2022.01)
G06V 10/762(2022.01)
G06N 3/04(2006.01)
(54)发明名称
基于YOLOV5的自然场景文本检测与识别方
法
(57)摘要
本发明提出一种基于YOLOV5的自然场景文
本检测与识别方法, 包括: 步骤S1: 获取自然场景
文本图像数据集, 将 对应标签转换为YOL OV5所需
要的格式; 步骤S2: 用YOLOV5的轻量级特征提取
器提取图像文本的位置信息和深层的语义信息;
利用跨层连接和空间金字塔池化层将浅层特征
和深层特征结合; 在跨层连接中加入形变卷积,
使得网络能够更好地处理特征图尺度的变化; 步
骤S3: 利用Kmean s算法聚合过的锚框拟合真实文
本框的长宽比, 并预测锚框与真实框的偏差; 利
用长卷积处理特征, 让锚框的长宽比更贴合真实
文本框; 步骤S4: 利用双向LSTM和注意力机制对
齐文本特征并预测文本序列; 其能够实现利用深
度学习完成对自然场景文本进行检测和识别, 且
轻量级足以实现在移动端部署。
权利要求书2页 说明书6页 附图1页
CN 115205839 A
2022.10.18
CN 115205839 A
1.一种基于 YOLOV5的自然场景文本检测与识别方法, 其特 征在于, 包括以下步骤;
步骤S1: 获取自然场景文本图像数据集, 将对应标签转换为对应YOLOV5的格式;
步骤S2: 采用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信
息; 利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合; 在跨层连接中加入形
变卷积, 使得网络能够更好 地处理特征图尺度的变化;
步骤S3: 利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比, 并预测锚框与真实
框的偏差; 利用长卷积处 理特征, 使锚框的长 宽比更贴合真实文本 框;
步骤S4: 利用双向LSTM和注意力机制对齐文本特 征并预测文本序列。
2.根据权利 要求1所述的基于YOLOV5的自然场景文本检测与识别方法, 其特征在于: 步
骤S1具体包括以下步骤;
步骤S11: 获取公开自然场景文字数据集;
步骤S12: 将数据集中的标签 格式全部转换为YOLOV5所需要的格式;
步骤S13: 将数据集中的文本区域中对应的文字也记录到json文件中, 以方便后续识
别。
3.根据权利 要求1所述的基于YOLOV5的自然场景文本检测与识别方法, 其特征在于: 步
骤S2具体包括以下步骤;
步骤S21: 将图像按批次输入到由多个Conv模块和多个BottleneckCSP模块组成的特征
提取器中, 其中Conv模块包含 卷积核大小3 ×3的卷积层、 批归一化层BN和SiLU激活函数; 如
公式一所示:
FConv_out=SiLU(BN(Co nv3×3(FConv_in))) 公式一;
其中FConv_in是Conv模块的输入特 征, Conv3×3是卷积核大小3 ×3的卷积层;
BottleneckCSP模块由Bottleneck加上CSP构成; Bottleneck将输入特征经过卷积核大
小1×1的卷积层, 再经过卷积核大小3 ×3的卷积层, 再将输入特征与之相加; 如公式二所
示, 其中FBottleneck是Bottleneck模块的输出, FBottleneck_in是Bottleneck模块的输入特征,
Conv3×3是卷积核大小3 ×3的卷积层,Co nv1×1是卷积核大小1 ×1的卷积层;
FBottleneck=FBottleneck_i n+Conv3×3(Conv1×1(FBottleneck_i n)) 公式二;
CSP将原输入分成两个分支, 分别进行卷积操作使得通道数减半, 然后一个分支进行
Bottleneck ×N操作, 其中N为自定义参数, 然后Concat两个分支, 使得BottlenneckCSP的输
入与输出 是一样的大小; 如公式三所示:
FConcat=Concat(N×Bottleneck(Co nv1×1(Fin_c/2_1)),Conv3×3(Fin_c/2_2))) 公式三;
其中FConcat是两个分支Concat的结果, Concat是特征拼接操作, Bottleneck指代公式二
的运算, Fin_c/2_1和Fin_c/2_2代表输入特 征的两个分支, 通道数 是原输入特 征的一半;
再将FConcat经过批归一化层BN、 LekyReLU激活函数和Conv1×1得到BottlenneckCSP的输
出FBottleneckCS P, 如公式四所示:
FBottleneckCS P=Conv1×1(LekyReLU(BN(FConcat))) 公式四;
步骤S22: 将经过Conv模块和BottleneckCSP下采样32倍的特征输入到SPP空间金字塔
池化层模块中, 将不同尺寸的特征图进 行最大池化操作, 再池化后的特征拼接, 作为特征提
取器的输出; 如公式五所示:
FSPP_out=DeformableConv(Concat(FSPP_in,MaxPooling13×13(FSPP_in),MaxPooling9×9权 利 要 求 书 1/2 页
2
CN 115205839 A
2(FSPP_in),MaxPooling5×5(FSPP_in))) 公式五;
其中FSPP_in是SPP模块的输入特征, FSPP_out是SPP模块的输出, MaxPooling13×13,
MaxPooling9×9, MaxPooling5×5分别代表采样核大小为13 ×13, 9×9, 5×5的最大池化层,
DeformableCo nv为形变卷积模块。
4.根据权利 要求1所述的基于YOLOV5的自然场景文本检测与识别方法, 其特征在于: 步
骤S3具体包括以下步骤;
步骤S31: 利用Kmeans算法拟合真实文本框的长宽比, 将所有真实文本框的比例输入到
Kmeans中, 以聚类出多个锚框的长 宽比;
步骤S32: 利用特征提取器提取的特征对锚框与真实文本框的偏差进行预测; 首先将特
征经过1×7长卷积网络, 用于提取适合长文本的语义特征; 再将处理后的特征分为gr idn×
gridn个网格, gridn为自定 义参数; 网络将预测四个偏 移量tx1,ty1,th1,tw1, 计算方法如公式
六、 公式七、 公式八、 公式九所示:
tx1=log((bboxx2‑cx3)/(1‑(bboxx2‑cx3))) 公式六;
ty1=log((bboxy2‑cy3)/(1‑(bboxy2‑cy3))) 公式七;
th1=log(gth4/ph5) 公式八;
tw1=log(gtw4/pw5) 公式九;
其中bboxx2, bboxy2分别代表真实文本框的中心点横纵坐标; cx3, cy3代表真实文本框对
应的网格的左上角横纵坐标; gth4, gtw4代表真实文本框的高和宽; ph5, pw5代表锚框的高和
宽; 网络通过 预测这4个偏移量进 而预测文本 框的位置 。
5.根据权利 要求1所述的基于YOLOV5的自然场景文本检测与识别方法, 其特征在于: 步
骤S4具体包括以下步骤;
步骤S41: 利用分级注意力机制处理长语义特征, 通过三个矩阵实现分级注意力机制,
包括查询矩阵Q、 键矩阵K和值矩阵V; 并将预测的文本特征的词嵌入装进矩阵E中, 并将矩阵
E线性映射到查询矩阵Q、 键矩阵K和值矩阵V中; 将查询矩阵Q与键矩阵K相乘, 来为特征图中
的每个像素进分数评估; 其中分数 的高低代表了两个特征像素之间的关联程度是否紧密;
然后将得到的分数除以键向量的维数dim的平方根, 以求强化梯度的稳定性; 再利用
softmax函数使得所有单词的分数为正值并且它们的和为1; 最后, 将得到的LekyReLU分数
与值矩阵V相乘, 即得到注意力层的输出, 这里表示 为矩阵O; 如公式十所示:
步骤S42: 将O输入到双向LSTM中, 将文本特 征与文本对齐, 预测出最终的文本结果。权 利 要 求 书 2/2 页
3
CN 115205839 A
3
专利 基于YOLOV5的自然场景文本检测与识别方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:57:45上传分享