行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210446762.9 (22)申请日 2022.04.26 (71)申请人 高新兴科技 集团股份有限公司 地址 510530 广东省广州市黄埔区科 学城 开创大道 2819号六楼 (72)发明人 凌康杰 陈利军 林焕凯 洪曙光  王祥雪 刘双广  (74)专利代理 机构 广州国鹏知识产权代理事务 所(普通合伙) 44511 专利代理师 葛红 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/10(2022.01) G06V 30/148(2022.01) G06V 10/44(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种视频OS D字符识别方法、 装置及 介质 (57)摘要 本发明提供了一种视频OSD字符识别方法, 其包括如下步骤: S1, 获取OSD视频图像; S2, OSD 视频图像输入至字符位置检测模块, 得到字符位 置信息; S3, 将所述字符位置信息和所述 OSD视频 图像同时输入至字符位置裁剪模块, 得到裁剪后 的图像; 所述字符位置裁剪模块对所述OSD视频 图像中字符图像块的中心坐标随机偏移M个字 符 长度; S4, 将所述裁剪后的图像输入至字符内容 识别模块, 输出识别到的字符串信息。 本发明在 识别字符过程中, 同时使用了OSD字符的位置信 息, 可以加快模型收敛, 提高识别的精度。 权利要求书1页 说明书11页 附图3页 CN 114782941 A 2022.07.22 CN 114782941 A 1.一种视频OS D字符识别方法, 其包括如下步骤: S1, 获取OS D视频图像; S2, OSD视频图像输入至 字符位置检测模块, 得到 字符位置信息; S3, 将所述字符位置信息和所述OSD视频图像同时输入至字符位置裁剪模块, 得到裁剪 后的图像; 所述字符位置裁剪模块对 所述OSD视频图像中字符图像块的中心 坐标随机偏移M 个字符长度; S4, 将所述裁 剪后的图像输入至 字符内容识别模块, 输出识别到的字符串信息 。 2.根据权利要求1所述的方法, 所述字符内容识别模块具体结构为: 第一CNN特征图 (101)、 下采样 模块(102)、 空间注意力模块(103)、 上采样模块(104)、 乘法器(105)、 第二CNN 特征图(106), 其中所述乘法器(105)将来自于上采样模块(104)的输出和第一CNN特征图 (101)的CN N特征图进行乘法运 算。 3.根据权利要求2所述的方法, 所述第二CN N特征图(106)输入CRN N网络进行字符识别。 4.根据权利要求1所述的方法, 所述字符位置检测模块的训练数据生成方法如下: 将背景区域、 字符区域同时按照高度 为k1, 宽度 为k2大小像素划分为块, 记作block, 针 对每块bl ock, 应用单一字符背景平均法来叠加字符, 得到合成字符的OS D字符图像。 5.根据权利要求 4所述的方法, 对所述 合成字符的OS D字符图像进行边 缘滤波。 6.一种视频OS D字符识别装置, 其包括如下 单元: OSD视频获取 单元, 用于获取OS D视频图像; 字符位置获取 单元, 用于OS D视频图像输入至 字符位置检测模块, 得到 字符位置信息; 字符裁剪单元, 用于将所述字符位置信息和所述OSD视频图像同时输入至字符位置裁 剪模块, 得到裁剪后的图像; 所述字 符位置裁剪模块对所述OSD 视频图像中字 符图像块的中 心坐标随机偏移M个字符长度; 字符识别单元, 用于将所述裁剪后的图像输入至字符内容识别模块, 输出识别到的字 符串信息 。 7.根据权利要求6所述的装置, 所述字符内容识别模块具体结构为: 第一CNN特征图 (101)、 下采样 模块(102)、 空间注意力模块(103)、 上采样模块(104)、 乘法器(105)、 第二CNN 特征图(106), 其中所述乘法器(105)将来自于上采样模块(104)的输出和第一CNN特征图 (101)的CN N特征图进行乘法运 算。 8.根据权利 要求7所述的装置, 所述字符识别单元, 还包括将所述第二CNN特征图(106) 输入CRNN网络进行字符识别。 9.根据权利要求6所述的装置, 所述字符位置检测模块的训练数据生成方法如下: 将背景区域、 字符区域同时按照高度 为k1, 宽度 为k2大小像素划分为块, 记作block, 针 对每块bl ock, 应用单一字符背景平均法来叠加字符, 得到合成字符的OS D字符图像。 10.一种非易失性存储器, 所述存储上存储有指令, 所述指令被处理器执行时, 用于实 现权利要求1 ‑5中任一项所述的视频OS D字符识别方法。权 利 要 求 书 1/1 页 2 CN 114782941 A 2一种视频OSD字符识别方 法、 装置及介质 技术领域 [0001]本发明涉及字符识别技术领域, 具体来说, 涉及一种视频OSD字符识别方法、 装置 及介质。 背景技术 [0002]随着基于视频监控的智能安防系统的广泛应用, 每天都会产生大量的OSD(On   screen display)视频。 在实际中, 需要识别出这些OSD视频图像中的OSD字符信息, 用于判 断OSD视频实时展示的字符与实际设置的待展示字符是否一致, 或用于视频归档, 或用于数 据库索引等。 [0003]目前有如下2中解决方法: 第一种是基于传统图像处理方法进行OCR(optical   character  recognition, 光学字符识别)字符识别。 先使用梯度特征提取、 HOG特征提取、 膨 胀、 腐蚀、 图像二值化等计算机视觉技术, 将 视频中的OSD字符检测出来并分割为单个字 符, 然后针对每个OSD 字符, 进行模板匹配, 最后得到识别的字符。 该方法主要缺点是, 受到视频 采集环境的光照变化、 图像中复杂背 景影响, 字符分割效果差, 容易产生不完整字符分割和 漏分割、 误分割问题, 识别精度低且上线部署效果不稳定, 特别是白天和黑 夜的场景转变导 致分割阈值难确定 。 [0004]第二种是基于深度学习方法, 先通过字符检测网络检测出OSD字符的位置, 再将字 符片段图像输入至深度学习网络进行字符识别。 该方法的主要缺点是, 需要大量的训练样 本和计算资源, 并且受到图像背景和光照的影响。 [0005]现有的深度学习方法直接应用在OS D字符识别上, 存在以下3个主 要缺点。 [0006]一是当前OS D字符识别模型精度较低。 [0007]二是当前OC R光学字符识别方法没有充 分利用OSD字符识别特有的信息, 这主要是 因为传统的OCR字符识别的数据主要来自于人工标注, 费时费力, 一般不会精细标注到每个 字符的位置信息, 而OS D技术合成的数据同时具有位置和内容两个方面的信息 。 [0008]三是基于OCR方法的深度学习模型并没有针对OSD字符识别进行优化, OSD字符的 构成是方方正正的连续块状的文字, 视频中不会存在字符变形、 同一个画面上字符缩放等 问题, 而且字符颜色多为黑色或白色等纯色。 而OCR识别的往往是在自然界中的文字, 例如 户外广告牌的字符, 手机拍摄的纸张文字, 字符的颜色、 纹理不尽相同。 如果不设计方法去 加强学习OSD 字符特有的特征并同时减弱背景字符的特征影响, 将OCR字 符识别的方法直接 应用到OSD字符识别上, 往往会误检出视频画 面中的背 景字符, 当这些无关的背 景字符输送 到OSD识别模块, 容易造成整个OSD字符识别系统性能退化。 其次是, OSD字符本身的像素是 单色, 但是背景直接来源于视频背景, 这就造成了OSD字符的背景复杂多变, 增加了识别难 度。 而OCR研究对象中的字 符背景往往 是单一的, 这就容易导致OCR字 符识别的方法对OSD 字 符本身不敏感, 容 易造成漏检。 [0009]本文提供的背景描述用于总体上呈现本公开的上下文的目的。 除非本文另外指 示, 在该章节中描述的资料不是该申请的权利要求的现有技术并且不要通过包括在该章节说 明 书 1/11 页 3 CN 114782941 A 3

PDF文档 专利 一种视频OSD字符识别方法、装置及介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频OSD字符识别方法、装置及介质 第 1 页 专利 一种视频OSD字符识别方法、装置及介质 第 2 页 专利 一种视频OSD字符识别方法、装置及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。