行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210785742.4 (22)申请日 2022.07.05 (71)申请人 福州大学 地址 350108 福建省福州市闽侯县福州大 学城乌龙江北 大道2号福州大 学 (72)发明人 柯逍 卢恺翔  (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 专利代理师 丘鸿超 蔡学俊 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/82(2022.01) G06V 10/762(2022.01) G06N 3/04(2006.01) (54)发明名称 基于YOLOV5的自然场景文本检测与识别方 法 (57)摘要 本发明提出一种基于YOLOV5的自然场景文 本检测与识别方法, 包括: 步骤S1: 获取自然场景 文本图像数据集, 将 对应标签转换为YOL OV5所需 要的格式; 步骤S2: 用YOLOV5的轻量级特征提取 器提取图像文本的位置信息和深层的语义信息; 利用跨层连接和空间金字塔池化层将浅层特征 和深层特征结合; 在跨层连接中加入形变卷积, 使得网络能够更好地处理特征图尺度的变化; 步 骤S3: 利用Kmean s算法聚合过的锚框拟合真实文 本框的长宽比, 并预测锚框与真实框的偏差; 利 用长卷积处理特征, 让锚框的长宽比更贴合真实 文本框; 步骤S4: 利用双向LSTM和注意力机制对 齐文本特征并预测文本序列; 其能够实现利用深 度学习完成对自然场景文本进行检测和识别, 且 轻量级足以实现在移动端部署。 权利要求书2页 说明书6页 附图1页 CN 115205839 A 2022.10.18 CN 115205839 A 1.一种基于 YOLOV5的自然场景文本检测与识别方法, 其特 征在于, 包括以下步骤; 步骤S1: 获取自然场景文本图像数据集, 将对应标签转换为对应YOLOV5的格式; 步骤S2: 采用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信 息; 利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合; 在跨层连接中加入形 变卷积, 使得网络能够更好 地处理特征图尺度的变化; 步骤S3: 利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比, 并预测锚框与真实 框的偏差; 利用长卷积处 理特征, 使锚框的长 宽比更贴合真实文本 框; 步骤S4: 利用双向LSTM和注意力机制对齐文本特 征并预测文本序列。 2.根据权利 要求1所述的基于YOLOV5的自然场景文本检测与识别方法, 其特征在于: 步 骤S1具体包括以下步骤; 步骤S11: 获取公开自然场景文字数据集; 步骤S12: 将数据集中的标签 格式全部转换为YOLOV5所需要的格式; 步骤S13: 将数据集中的文本区域中对应的文字也记录到json文件中, 以方便后续识 别。 3.根据权利 要求1所述的基于YOLOV5的自然场景文本检测与识别方法, 其特征在于: 步 骤S2具体包括以下步骤; 步骤S21: 将图像按批次输入到由多个Conv模块和多个BottleneckCSP模块组成的特征 提取器中, 其中Conv模块包含 卷积核大小3 ×3的卷积层、 批归一化层BN和SiLU激活函数; 如 公式一所示: FConv_out=SiLU(BN(Co nv3×3(FConv_in)))   公式一; 其中FConv_in是Conv模块的输入特 征, Conv3×3是卷积核大小3 ×3的卷积层; BottleneckCSP模块由Bottleneck加上CSP构成; Bottleneck将输入特征经过卷积核大 小1×1的卷积层, 再经过卷积核大小3 ×3的卷积层, 再将输入特征与之相加; 如公式二所 示, 其中FBottleneck是Bottleneck模块的输出, FBottleneck_in是Bottleneck模块的输入特征, Conv3×3是卷积核大小3 ×3的卷积层,Co nv1×1是卷积核大小1 ×1的卷积层; FBottleneck=FBottleneck_i n+Conv3×3(Conv1×1(FBottleneck_i n))   公式二; CSP将原输入分成两个分支, 分别进行卷积操作使得通道数减半, 然后一个分支进行 Bottleneck ×N操作, 其中N为自定义参数, 然后Concat两个分支, 使得BottlenneckCSP的输 入与输出 是一样的大小; 如公式三所示: FConcat=Concat(N×Bottleneck(Co nv1×1(Fin_c/2_1)),Conv3×3(Fin_c/2_2)))    公式三; 其中FConcat是两个分支Concat的结果, Concat是特征拼接操作, Bottleneck指代公式二 的运算, Fin_c/2_1和Fin_c/2_2代表输入特 征的两个分支, 通道数 是原输入特 征的一半; 再将FConcat经过批归一化层BN、 LekyReLU激活函数和Conv1×1得到BottlenneckCSP的输 出FBottleneckCS P, 如公式四所示: FBottleneckCS P=Conv1×1(LekyReLU(BN(FConcat)))   公式四; 步骤S22: 将经过Conv模块和BottleneckCSP下采样32倍的特征输入到SPP空间金字塔 池化层模块中, 将不同尺寸的特征图进 行最大池化操作, 再池化后的特征拼接, 作为特征提 取器的输出; 如公式五所示: FSPP_out=DeformableConv(Concat(FSPP_in,MaxPooling13×13(FSPP_in),MaxPooling9×9权 利 要 求 书 1/2 页 2 CN 115205839 A 2(FSPP_in),MaxPooling5×5(FSPP_in)))   公式五; 其中FSPP_in是SPP模块的输入特征, FSPP_out是SPP模块的输出, MaxPooling13×13, MaxPooling9×9, MaxPooling5×5分别代表采样核大小为13 ×13, 9×9, 5×5的最大池化层, DeformableCo nv为形变卷积模块。 4.根据权利 要求1所述的基于YOLOV5的自然场景文本检测与识别方法, 其特征在于: 步 骤S3具体包括以下步骤; 步骤S31: 利用Kmeans算法拟合真实文本框的长宽比, 将所有真实文本框的比例输入到 Kmeans中, 以聚类出多个锚框的长 宽比; 步骤S32: 利用特征提取器提取的特征对锚框与真实文本框的偏差进行预测; 首先将特 征经过1×7长卷积网络, 用于提取适合长文本的语义特征; 再将处理后的特征分为gr idn× gridn个网格, gridn为自定 义参数; 网络将预测四个偏 移量tx1,ty1,th1,tw1, 计算方法如公式 六、 公式七、 公式八、 公式九所示: tx1=log((bboxx2‑cx3)/(1‑(bboxx2‑cx3)))      公式六; ty1=log((bboxy2‑cy3)/(1‑(bboxy2‑cy3)))     公式七; th1=log(gth4/ph5)       公式八; tw1=log(gtw4/pw5)        公式九; 其中bboxx2, bboxy2分别代表真实文本框的中心点横纵坐标; cx3, cy3代表真实文本框对 应的网格的左上角横纵坐标; gth4, gtw4代表真实文本框的高和宽; ph5, pw5代表锚框的高和 宽; 网络通过 预测这4个偏移量进 而预测文本 框的位置 。 5.根据权利 要求1所述的基于YOLOV5的自然场景文本检测与识别方法, 其特征在于: 步 骤S4具体包括以下步骤; 步骤S41: 利用分级注意力机制处理长语义特征, 通过三个矩阵实现分级注意力机制, 包括查询矩阵Q、 键矩阵K和值矩阵V; 并将预测的文本特征的词嵌入装进矩阵E中, 并将矩阵 E线性映射到查询矩阵Q、 键矩阵K和值矩阵V中; 将查询矩阵Q与键矩阵K相乘, 来为特征图中 的每个像素进分数评估; 其中分数 的高低代表了两个特征像素之间的关联程度是否紧密; 然后将得到的分数除以键向量的维数dim的平方根, 以求强化梯度的稳定性; 再利用 softmax函数使得所有单词的分数为正值并且它们的和为1; 最后, 将得到的LekyReLU分数 与值矩阵V相乘, 即得到注意力层的输出, 这里表示 为矩阵O; 如公式十所示: 步骤S42: 将O输入到双向LSTM中, 将文本特 征与文本对齐, 预测出最终的文本结果。权 利 要 求 书 2/2 页 3 CN 115205839 A 3

.PDF文档 专利 基于YOLOV5的自然场景文本检测与识别方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于YOLOV5的自然场景文本检测与识别方法 第 1 页 专利 基于YOLOV5的自然场景文本检测与识别方法 第 2 页 专利 基于YOLOV5的自然场景文本检测与识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:57:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。