专利基于YOLOV5的自然场景文本检测与识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210785742.4 (22)申请日 2022.07.05 (71)申请人福州大学地址 350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学 (72)发明人柯逍　卢恺翔　 (74)专利代理机构福州元创专利商标代理有限公司 35100 专利代理师丘鸿超　蔡学俊 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/82(2022.01) G06V 10/762(2022.01) G06N 3/04(2006.01) (54)发明名称基于YOLOV5的自然场景文本检测与识别方法 (57)摘要本发明提出一种基于YOLOV5的自然场景文本检测与识别方法，包括：步骤S1：获取自然场景文本图像数据集，将对应标签转换为YOL OV5所需要的格式；步骤S2：用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息；利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合；在跨层连接中加入形变卷积，使得网络能够更好地处理特征图尺度的变化；步骤S3：利用Kmean s算法聚合过的锚框拟合真实文本框的长宽比，并预测锚框与真实框的偏差；利用长卷积处理特征，让锚框的长宽比更贴合真实文本框；步骤S4：利用双向LSTM和注意力机制对齐文本特征并预测文本序列；其能够实现利用深度学习完成对自然场景文本进行检测和识别，且轻量级足以实现在移动端部署。权利要求书2页说明书6页附图1页 CN 115205839 A 2022.10.18 CN 115205839 A 1.一种基于 YOLOV5的自然场景文本检测与识别方法，其特征在于，包括以下步骤；步骤S1：获取自然场景文本图像数据集，将对应标签转换为对应YOLOV5的格式；步骤S2：采用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息；利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合；在跨层连接中加入形变卷积，使得网络能够更好地处理特征图尺度的变化；步骤S3：利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比，并预测锚框与真实框的偏差；利用长卷积处理特征，使锚框的长宽比更贴合真实文本框；步骤S4：利用双向LSTM和注意力机制对齐文本特征并预测文本序列。 2.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法，其特征在于：步骤S1具体包括以下步骤；步骤S11：获取公开自然场景文字数据集；步骤S12：将数据集中的标签格式全部转换为YOLOV5所需要的格式；步骤S13：将数据集中的文本区域中对应的文字也记录到json文件中，以方便后续识别。 3.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法，其特征在于：步骤S2具体包括以下步骤；步骤S21：将图像按批次输入到由多个Conv模块和多个BottleneckCSP模块组成的特征提取器中，其中Conv模块包含卷积核大小3 ×3的卷积层、批归一化层BN和SiLU激活函数；如公式一所示： FConv_out＝SiLU(BN(Co nv3×3(FConv_in))) 公式一；其中FConv_in是Conv模块的输入特征， Conv3×3是卷积核大小3 ×3的卷积层； BottleneckCSP模块由Bottleneck加上CSP构成； Bottleneck将输入特征经过卷积核大小1×1的卷积层，再经过卷积核大小3 ×3的卷积层，再将输入特征与之相加；如公式二所示，其中FBottleneck是Bottleneck模块的输出， FBottleneck_in是Bottleneck模块的输入特征， Conv3×3是卷积核大小3 ×3的卷积层,Co nv1×1是卷积核大小1 ×1的卷积层； FBottleneck＝FBottleneck_i n+Conv3×3(Conv1×1(FBottleneck_i n)) 公式二； CSP将原输入分成两个分支，分别进行卷积操作使得通道数减半，然后一个分支进行 Bottleneck ×N操作，其中N为自定义参数，然后Concat两个分支，使得BottlenneckCSP的输入与输出是一样的大小；如公式三所示： FConcat＝Concat(N×Bottleneck(Co nv1×1(Fin_c/2_1)),Conv3×3(Fin_c/2_2))) 公式三；其中FConcat是两个分支Concat的结果， Concat是特征拼接操作， Bottleneck指代公式二的运算， Fin_c/2_1和Fin_c/2_2代表输入特征的两个分支，通道数是原输入特征的一半；再将FConcat经过批归一化层BN、 LekyReLU激活函数和Conv1×1得到BottlenneckCSP的输出FBottleneckCS P，如公式四所示： FBottleneckCS P＝Conv1×1(LekyReLU(BN(FConcat))) 公式四；步骤S22：将经过Conv模块和BottleneckCSP下采样32倍的特征输入到SPP空间金字塔池化层模块中，将不同尺寸的特征图进行最大池化操作，再池化后的特征拼接，作为特征提取器的输出；如公式五所示： FSPP_out＝DeformableConv(Concat(FSPP_in,MaxPooling13×13(FSPP_in),MaxPooling9×9权　利　要　求　书 1/2 页 2 CN 115205839 A 2(FSPP_in),MaxPooling5×5(FSPP_in))) 公式五；其中FSPP_in是SPP模块的输入特征， FSPP_out是SPP模块的输出， MaxPooling13×13， MaxPooling9×9， MaxPooling5×5分别代表采样核大小为13 ×13， 9×9， 5×5的最大池化层， DeformableCo nv为形变卷积模块。 4.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法，其特征在于：步骤S3具体包括以下步骤；步骤S31：利用Kmeans算法拟合真实文本框的长宽比，将所有真实文本框的比例输入到 Kmeans中，以聚类出多个锚框的长宽比；步骤S32：利用特征提取器提取的特征对锚框与真实文本框的偏差进行预测；首先将特征经过1×7长卷积网络，用于提取适合长文本的语义特征；再将处理后的特征分为gr idn× gridn个网格， gridn为自定义参数；网络将预测四个偏移量tx1,ty1,th1,tw1，计算方法如公式六、公式七、公式八、公式九所示： tx1＝log((bboxx2‑cx3)/(1‑(bboxx2‑cx3))) 公式六； ty1＝log((bboxy2‑cy3)/(1‑(bboxy2‑cy3))) 公式七； th1＝log(gth4/ph5) 公式八； tw1＝log(gtw4/pw5) 公式九；其中bboxx2， bboxy2分别代表真实文本框的中心点横纵坐标； cx3， cy3代表真实文本框对应的网格的左上角横纵坐标； gth4， gtw4代表真实文本框的高和宽； ph5， pw5代表锚框的高和宽；网络通过预测这4个偏移量进而预测文本框的位置。 5.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法，其特征在于：步骤S4具体包括以下步骤；步骤S41：利用分级注意力机制处理长语义特征，通过三个矩阵实现分级注意力机制，包括查询矩阵Q、键矩阵K和值矩阵V；并将预测的文本特征的词嵌入装进矩阵E中，并将矩阵 E线性映射到查询矩阵Q、键矩阵K和值矩阵V中；将查询矩阵Q与键矩阵K相乘，来为特征图中的每个像素进分数评估；其中分数的高低代表了两个特征像素之间的关联程度是否紧密；然后将得到的分数除以键向量的维数dim的平方根，以求强化梯度的稳定性；再利用 softmax函数使得所有单词的分数为正值并且它们的和为1；最后，将得到的LekyReLU分数与值矩阵V相乘，即得到注意力层的输出，这里表示为矩阵O；如公式十所示：步骤S42：将O输入到双向LSTM中，将文本特征与文本对齐，预测出最终的文本结果。权　利　要　求　书 2/2 页 3 CN 115205839 A 3

专利 基于YOLOV5的自然场景文本检测与识别方法

专利基于YOLOV5的自然场景文本检测与识别方法