行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210229490.7 (22)申请日 2022.03.10 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 李宏亮 董建伟 盛一航 任子奕  黄俊强  (74)专利代理 机构 电子科技大 学专利中心 51203 专利代理师 邹裕蓉 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于文本特 征对齐的多方向文本 检测方法 (57)摘要 本发明提出了一种基于文本特征对齐的多 方向文本检测方法, 先对图像进行数据增广处 理; 再对数据增广后的 图像通过主干网络提取多 尺度特征之后使用级联的多个特征金字塔形式 的增强模块来获取多尺度特征中的低级和 高级 语义信息并输出, 再使用特征融合模块对多个特 征金字塔形式的增强模块的输出进行自下而上 的融合得到融合特征, 使用文本特征对齐模块对 融合的特征进行加强得到增强特征; 最后对增强 特征分别进行文本分类与位置预测从而输出预 测文本框。 本发明能够高效、 准确地提取文本特 征, 定位文本位置; 具有快速的检测速度和较高 的检测精度。 权利要求书1页 说明书3页 附图3页 CN 114821558 A 2022.07.29 CN 114821558 A 1.基于文本特 征对齐的多方向文本检测方法, 其特 征在于, 包 含以下步骤: 1)构建多种场景 下不同比例的文本实例的数据集; 2)获取数据集中包 含文本实例的文本图像, 并对图像进行 数据增广处 理; 3)对数据增广后的图像通过主干网络提取多尺度特征之后使用级联的多个特征金字 塔形式的增强模块来 获取多尺度特征中的低级和高级语义信息并输出, 再使用特征融合模 块对多个特征金字塔形式的增强模块的输出进行自下而上的融合得到融合特征, 最后使用 文本特征对齐模块对融合的特 征进行加强得到增强特 征; 4)对增强特 征分别进行文本分类与位置预测从而输出 预测文本 框。 2.如权利要求1所述方法, 其特征在于, 位置预测的具体方式为增强特征经边界框回归 输出的多个预测文本框位置, 再使用非极大值抑制处理多余的预测文本框从而输出最终的 一个预测文本 框位置。 3.如权利要求1所述方法, 其特 征在于, 主干网络采用ResNet18。 4.如权利要求1所述方法, 其特征在于, 数据增广处理包括对图像进行旋转、 透视变换、 收缩和对比度变换。 5.如权利要求4所述方法, 其特征在于, 数据增广处理还包括文本实例扭曲、 拉伸、 模糊 以及噪声添加。 6.如权利要求1所述方法, 其特征在于, 特征金字塔形式的增强模块采用上采样增强和 下采样增强两个阶段, 上采样增强阶段采用设置的不同增强步长在输入的多尺度特征上通 过双线性插值得到的特征图上进 行迭代增强生成特征金字塔, 下采样增强阶段采用设置的 不同增强步长, 以采样步长2对上采样增强生成的特征金字塔进行下采样生成增强模块的 输出。 7.如权利要求1所述方法, 其特征在于, 文本特征对齐模块生成增强特征的具体方式 为: 融合特征经过4个不同的卷积组合通道后输入对应的3x3可分离卷积DWConv, 4个DWConv 的输出直接拼接 输入至自注意力机制, 自注意力机制输出 经1x 1的卷积后输出增强特 征。 8.如权利要求7所述方法, 其特征在于, 4个不同的卷积组合通道分别对应的1x1,3x3, 5x5,7x7的卷积, 其中, 3x3,5x5,7x7的卷积使用1x3和3x1, 1x5和5x1, 1x7和7x1卷积组合实 现。权 利 要 求 书 1/1 页 2 CN 114821558 A 2基于文本特征对齐的多方向文本检测方 法 技术领域 [0001]本发明涉及 光学字符检测技术, 特别涉及基于文本特征对齐的多方向文本检测技 术。 背景技术 [0002]场景中的文本内容广泛用于文本检索, 文字提取, 辅助阅读等场景, 已经成为计算 机视觉领域最重要的研究方向之一。 为了能更好地获取场景中的文本, 已经有很多研究者 正在尝试用不同的深度学习技 术解决文本读取的关键问题。 [0003]文本读取主要分为两个关键步骤: 文本检测和文本识别。 文本检测是为了定位每 个文本实例边界框的坐标位置; 文本识别是为了将检测出来的文本转化成可读取的文本字 符串序列。 由于图像中的文本通常具有不同的长宽比和形状, 这也为精确定位文本区域带 来了巨大的挑战。 [0004]目前基于深度学习的文本检测算法主要分为两大类: 基于区域建议的文本检测方 法和基于图像分割的文本检测方法。 这些文本检测方法先后经历了水平方向的文本检测、 任意方向的文本检测以及现在比较热门的弯曲文本检测。 通常情况下, 基于区域建议的网 络在水平方向和任意方向的文本检测性能较好, 基于分割的文本检测算法能更好的处理弯 曲文本检测问题。 [0005]基于区域建议的文本检测方法类似于一般的目标检测框架, 通常采用回归文本框 的方式来获得文本区域信息。 该方法的主要问题在于, 难以对任意基于图像分割的文本检 测方法通常利用全卷积网络等分割网络结构进行像素级别的文本预测, 预测每一个像素点 是文本还 是背景, 根据分割结果来构建文本行。 如果多个文本区域存在重叠, 基于 分割的方 法难以精确分割不同的文本实例。 发明内容 [0006]本发明所要解决的技术问题是, 针对现有技术无法精确检测具有极端纵横比和不 同比例的文本实例, 提出了一种基于文本特 征对齐的多方向文本检测方法。 [0007]本发明为解决上述技术问题, 所采用的技术方案是, 基于文本特征对齐的多方向 文本检测方法, 包 含以下步骤: [0008]1)构建多种场景 下不同比例的文本实例的数据集; [0009]2)获取数据集中包 含文本实例的文本图像, 并对图像进行 数据增广处 理; [0010]3)对数据增广后的图像通过主干网络提取多尺度特征之后使用级联的多个特征 金字塔形式的增强模块来 获取多尺度特征中的低级和高级语义信息并输出, 再使用特征融 合模块对多个特征金字塔形式的增强模块的输出进行自下而 上的融合得到融合特征, 最后 使用文本特 征对齐模块对融合的特 征进行加强得到增强特 征; [0011]4)对增强特 征分别进行文本分类与位置预测从而输出 预测文本 框。 [0012]具体的, 位置预测的具体方式为增强特征经边界框回归输出的多个预测文本框位说 明 书 1/3 页 3 CN 114821558 A 3

.PDF文档 专利 基于文本特征对齐的多方向文本检测方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于文本特征对齐的多方向文本检测方法 第 1 页 专利 基于文本特征对齐的多方向文本检测方法 第 2 页 专利 基于文本特征对齐的多方向文本检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:21:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。