(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 20221042584 4.5
(22)申请日 2022.04.22
(65)同一申请的已公布的文献号
申请公布号 CN 114529925 A
(43)申请公布日 2022.05.24
(73)专利权人 华南理工大 学
地址 510000 广东省广州市天河区五山路
381号
专利权人 人工智能与数字经济广东省实验
室 (广州)
(72)发明人 黄双萍 彭政华 杨帆
(74)专利代理 机构 东莞卓诚专利代理事务所
(普通合伙) 44754
专利代理师 朱鹏
(51)Int.Cl.
G06V 30/412(2022.01)
G06V 10/24(2022.01)
G06V 10/26(2022.01)G06V 10/28(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06K 9/62(2022.01)
(56)对比文件
CN 106156761 A,2016.1 1.23
CN 106156761 A,2016.1 1.23
CN 112183038 A,2021.01.0 5
CN 111460927 A,2020.07.28
CN 111652204 A,2020.09.1 1
CN 16416 32 A,2005.07.20
JP 20120 59213 A,2012.0 3.22
JP S64561 A,1989.01.0 5
CN 111611783 A,2020.09.01
潘军. 《复杂表格文档预处 理与文本提取算
法研究》 . 《中国优秀博硕士学位 论文全文数据库
(硕士)信息科技 辑》 .2017,(第6期),I138-1313.
审查员 吴琼乐
(54)发明名称
一种全线表表格结构识别方法
(57)摘要
本发明公开了一种全线表表格结构识别方
法, 包括: 采用实例分割算法对文档图像进行单
元格分割, 得到每一个单元格对应于文档图像中
单元格所在区域的二值化掩码图像; 将每一个单
元格的二值化掩码图像进行或运算和形态学闭
操作, 得到表格整体区域图像及表格整体区域图
像的二值化掩码图像; 采用矫正算法, 在获得表
格整体区域图像中表格区域的四个顶 点后, 利用
TPS变换以这四个顶点为基准将弯曲表 格修正为
以这四个顶 点为顶点的近似四边形表格区域, 并
使用透视变换将近似四边形表格区域转换成水
平矩形的正表格图像; 进行单元格目标检测获得
每一个单元格的边界框; 利用基于规则化排序算
法进行排序以识别表格结构, 将表格结构表达成
对应的标记语言描述。
权利要求书5页 说明书12页 附图3页
CN 114529925 B
2022.07.15
CN 114529925 B
1.一种全线表 表格结构识别方法, 其特 征在于, 包括以下步骤:
步骤1, 采用实例分割算法对文档图像I进行单元格分割, 得到每一个单元格对应于文
档图像中单 元格所在区域的二 值化掩码图像;
步骤2, 将每一个单元格的二值化掩码图像进行或运算和形态学闭操作, 裁剪出表格整
体区域, 得到表格整体区域图像I ’及表格整体区域图像的二 值化掩码图像;
步骤3, 采用矫正算法, 在获得表格整体区域图像I ’中表格区域的四个顶点后, 利用TPS
变换以这四个顶点为基准将弯曲表格修正为以这四个顶点为顶点的近似四边形表格区域,
并使用透 视变换将近似四边形表格区域 转换成水平 矩形的正表格图像T;
步骤4, 对正表格图像T 进行单元格目标检测, 获得每一个单 元格的边界框;
步骤5, 利用基于规则化排序算法进行排序以识别表格结构, 将表格结构表达成对应的
标记语言描述;
步骤5中, 所述的基于规则化排序算法分别利用单元格边界框的左上角顶点和右下角
顶点来代表单元格进行依行列排序和依列行排序, 以获得每个单元格中的逻辑位置, 求取
每个单元格跨行跨列属性, 以此识别表格结构;
所述的依行列排序是指: 每次以一行的单元格为排序对象, 先完成第一行的单元格从
左到右的空间位置列排序, 再完成第二行 的单元格从左到右的空间位置列排序, 直到最后
一行, 即从上至下依行进行每一行中单元格的列排序获取单元格在所在行中的列号, 又因
为是逐行进 行的排序, 第一次排序的一整 行内的单元格的行号即为 1, 第二次排序的一整 行
内的单元格的行号即为2, 以此类 推, 获得单元格在表格中代 表逻辑位置的行列号;
所述的依列行排序是指: 每次以一列的单元格为排序对象, 先完成第一列的单元格从
上到下的空间位置行排序, 再完成第二列的单元格从上到下 的空间位置行排序, 直到最后
一列, 即从左至右依列进行每一列中单元格的行排序获取单元格在所在列中的行号, 又因
为是逐列进 行的排序, 第一次排序的一整列内的单元格的列号即为 1, 第二次排序的一整列
内的单元格的列号即为2, 以此类 推, 获得单元格在表格中代 表逻辑位置的行列号。
2.根据权利要求1所述的一种全线表表格结构识别方法, 其特征在于, 步骤2包括以下
步骤:
步骤201, 将每个单元格对应于文档图像所在区域的二值化掩码图像集合之间进行或
运算;
步骤202, 进行 形态学闭操作去掉或运 算结果中的空隙部分;
步骤203, 使用最小外接水平矩形裁剪出表格区域图像, 即得到精准的表格整体区域图
像I’及表格整体区域图像的二 值化掩码图像。
3.根据权利要求1所述的一种全线表表格结构识别方法, 其特征在于, 步骤3包括以下
步骤:
步骤301, 采用Op enCV中的轮廓求取算法, 求得表格整体区域图像I ’的二值化掩码图像
中的表格掩码 轮廓, 然后获取表格掩码轮廓的最小外接矩形, 从而获取表格的倾斜角度, 在
得到的倾斜角度的基础上, 分别构造倾斜角度加上45 °的两条直线与加上135 °的两条直线
共四条直线, 分别位于表格掩码轮廓四个对角方向之外, 将表格掩码轮廓中距离四条直线
最近的点作为表格 轮廓的四个顶点;
步骤302, 分别在左上、 右上顶点连线间以及左下、 右下顶点连线间等距离取点, 作为权 利 要 求 书 1/5 页
2
CN 114529925 B
2TPS变换目标点, 两两连接目标点, 得到等距垂直直线系, 直线系与表格轮廓的交点作为初
始点且与目标点两两匹配, 然后进行TPS变换, 使初始点尽可能拉近目标点, 得到以轮廓的
四个顶点 为顶点的去弯曲后的近似四边形表格图像;
步骤303, 将去弯曲后的近似四边形表格 图像中表格的四个顶点在图像中的坐标与图
像边界的四个顶点坐标相结合计算透视变换矩阵参数, 对去弯曲后的近似四边形表格图像
进行透视变换, 得到平铺满图片的正表格图像T;
透视变换操作如下:
式中的
和
分别为变换前后的像素坐标, 变换参数矩阵中 的元素
由
透视变换前后表格四个顶点的坐标联立方程解得,
为假设处于
平面内的
原图上的点
乘以变换参数矩阵进行三维映射至三维空间后的坐标。
4.根据权利要求1所述的一种全线表表格结构识别方法, 其特征在于, 步骤4具体包括
以下步骤: 利用CBNetV2算法或Faster RCNN算法对步骤3中的正表格图像T进行单元格目标
检测, 分别获得每一个单 元格的边界框, 边界框的形式为:
即单元格边界框的左上角与右下角在正表格图像T中的空间位置坐标
和
, 将检测结果中的每一个单元格边界框的左上角组成左
上角点集, 将每一个单 元格边界框的右下角组成右下角点 集。
5.根据权利要求1所述的一种全线表表格结构识别方法, 其特征在于, 步骤5 中, 所述的
分别利用单元格边界框的左上角顶点和右下角顶点来代表单元格进行依行列排序和依列
行排序, 包括以下步骤:
步骤501, 利用单元格边界框的左上角顶点来代表单元格进行依行列排序, 获得以边界
框左上角顶点代 表单元格的行号
,ci为单元格;
步骤502, 利用单元格边界框的右下角顶点来代表单元格进行依行列排序, 获得以右下
角顶点代 表单元格的行号
, 则单元格的跨行属性 值为:权 利 要 求 书 2/5 页
3
CN 114529925 B
3
专利 一种全线表表格结构识别方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:10:59上传分享