行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210427478.7 (22)申请日 2022.04.21 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 庾悦晨 章成全 姚锟  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 单冠飞 (51)Int.Cl. G06V 30/412(2022.01) G06V 10/44(2022.01) (54)发明名称 表格图像处 理方法、 装置和存 储介质 (57)摘要 本公开提供了一种表格图像处理方法、 装置 和存储介质, 涉及人工智 能技术领域, 具体涉及 计算机视觉、 图像处理、 深度学习等技术领域。 具 体实现方案为: 在对表格图像进行处理时, 获取 表格图像中各个文本框的第一文本信息以及第 一位置信息, 并确定表格图像中待识别单元格图 像的第二位置信息, 以及从第一位置信息中, 获 取与第二位置信息匹配的第三位置信息, 并将第 三位置信息所对应文本框中的第二文本信息作 为待识别单元格图像中的文本内容。 由此, 基于 表格图像中文本框的文本信息以及位置信息, 方 便地确定出表格图像中待识别单元格图像中的 文本内容, 降低了表格图像处理的复杂度, 提高 了表格图像处 理的准确度。 权利要求书2页 说明书10页 附图5页 CN 114639107 A 2022.06.17 CN 114639107 A 1.一种表格图像处 理方法, 包括: 获取表格图像中各个文本 框的第一文本信息以及第一 位置信息; 确定所述表格图像中待识别单 元格图像的第二 位置信息; 从所述第一 位置信息中, 获取与所述第二 位置信息匹配的第三 位置信息; 将所述第三位置信息所对应文本框中的第二文本信息作为所述待识别单元格图像中 的文本内容。 2.根据权利要求1所述的方法, 其中, 所述确定所述表格图像中待识别单元格图像的第 二位置信息, 包括: 获取所述表格图像的图像特 征图; 根据所述第 一文本信 息的语义特征和所述第 一位置信 息, 生成所述表格图像的语义特 征图; 根据所述图像特 征图和所述语义特 征图, 确定所述第二 位置信息 。 3.根据权利要求2所述的方法, 所述根据所述第一文本信息的语义特征和所述第一位 置信息, 生成所述表格图像的语义特 征图, 包括: 生成与所述图像特征图的尺寸相同的初始特征图, 其中, 所述初始特征图上的像素值 均为零; 根据所述图像特 征图的尺寸和所述表格图像的尺寸, 确定所述表格图像的缩小倍数; 根据所述缩小倍数, 确定所述第一 位置信息在所述初始特 征图上的映射 位置信息; 将所述语义特 征填充到所述映射 位置信息上, 以得到所述语义特 征图。 4.根据权利要求2或3所述的方法, 其中, 所述根据 所述图像特征图和所述语义特征图, 确定所述第二 位置信息, 包括: 对所述图像特 征图和语义特 征图进行 特征融合, 以得到融合特 征图; 根据所述融合特征图, 确定所述表格图像的表格结构信息, 所述表格结构信息包括文 本标签; 将所述表格图像中与所述文本标签对应的单 元格图像作为所述待识别单 元格图像; 基于所述融合特 征图和所述文本标签, 确定所述第二 位置信息 。 5.根据权利要求4所述的方法, 其中, 所述根据所述融合特征图, 确定所述表格图像的 表格结构信息, 包括: 采用结构解码器, 对所述融合特 征图进行处 理, 以得到所述表格结构信息 。 6.根据权利要求5所述的方法, 其中, 所述基于所述融合特征图和所述文本标签, 确定 所述第二 位置信息, 包括: 从所述结构解码器的多个解码单 元中, 获取与所述文本标签对应的目标解码单 元; 采用位置解码器, 对所述目标解码单元的输出特征以及所述融合特征图进行处理, 以 得到所述待识别单 元格图像的第二 位置信息 。 7.一种表格图像处 理装置, 包括: 第一获取模块, 用于获取表格图像中各个文本 框的第一文本信息以及第一 位置信息; 第一确定模块, 用于确定所述表格图像中待识别单 元格图像的第二 位置信息; 第二获取模块, 用于从所述第一位置信息中, 获取与所述第二位置信息匹配的第三位 置信息;权 利 要 求 书 1/2 页 2 CN 114639107 A 2第二确定模块, 用于将所述第 三位置信 息所对应文本框中的第 二文本信 息作为所述待 识别单元格图像中的文本内容。 8.根据权利要求7 所述的装置, 其中, 所述第一确定模块, 包括: 获取子模块, 用于获取 所述表格图像的图像特 征图; 生成子模块, 用于根据所述各个文本框的第一文本信息的语义特征和第一位置信息, 生成所述表格图像的语义特 征图; 确定子模块, 用于根据所述图像特 征图和所述语义特 征图, 确定所述第二 位置信息 。 9.根据权利要求8所述的装置, 所述 生成子模块, 具体用于: 生成与所述图像特征图的尺寸相同的初始特征图, 其中, 所述初始特征图上的像素值 均为零; 根据所述图像特 征图的尺寸和所述表格图像的尺寸, 确定所述表格图像的缩小倍数; 根据所述缩小倍数, 确定所述第一 位置信息在所述初始特 征图上的映射 位置信息; 将所述语义特 征填充到所述映射 位置信息上, 以得到所述语义特 征图。 10.根据权利要求8或9所述的装置, 其中, 所述确定 子模块, 包括: 融合单元, 用于对所述图像特 征图和语义特 征图进行 特征融合, 以得到融合特 征图; 第一确定单元, 用于根据 所述融合特征图, 确定所述表格图像的表格结构信息, 所述表 格结构信息包括文本标签; 第二确定单元, 用于将所述表格图像中与 所述文本标签对应的单元格图像作为所述待 识别单元格图像; 第三确定单元, 用于基于所述融合特征图和所述文本标签, 确定所述待识别单元格图 像在所述表格图像中的第二 位置信息 。 11.根据权利要求10所述的装置, 其中, 所述第一确定单 元, 具体用于: 采用结构解码器, 对所述融合特 征图进行处 理, 以得到所述表格图像的表格结构信息 。 12.根据权利要求1 1所述的装置, 其中, 所述第一确定模块, 具体用于: 从所述结构解码器的多个解码单 元中, 获取与所述文本标签对应的目标解码单 元; 采用位置解码器, 对所述目标解码单元的输出特征以及所述融合特征图进行处理, 以 得到所述待识别单 元格图像的第二 位置信息 。 13.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑6中任一项所述的方法。 15.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现权 利要求1‑6中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114639107 A 3

PDF文档 专利 表格图像处理方法、装置和存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 表格图像处理方法、装置和存储介质 第 1 页 专利 表格图像处理方法、装置和存储介质 第 2 页 专利 表格图像处理方法、装置和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。