行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210476246.0 (22)申请日 2022.04.29 (71)申请人 北京智通 东方软件科技有限公司 地址 102101 北京市延庆区中关村延庆园 东环路2号楼 294室 (72)发明人 尹成浩  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 张岩龙 (51)Int.Cl. G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本识别的方法、 装置、 存储介质和电子设 备 (57)摘要 本公开涉及一种文本识别的方法、 装置、 存 储介质和电子设备, 涉及图像处理技术领域, 包 括: 获取待识别的文本图像; 将文本图像作为预 先训练的文本识别模型的输入, 以得到文本识别 模型输出的文本图像对应的目标识别文本; 其 中, 文本识别模 型是对预设训练模 型通过第一目 标损失函数和第二目标损失函数训练后得到的, 第一目标损失函数是根据样本图像对应的目标 样本图像和目标样本图像对应的第一样本识别 文本得到的, 第二目标损失函数是根据样本图 像、 样本图像对应的第二样本识别文本以及第二 样本识别文本中每个字 符的权重系数得到的, 目 标样本图像为按照一个或多个预设处理方式分 别对样本图像进行处 理后得到的图像 。 权利要求书3页 说明书16页 附图8页 CN 114821597 A 2022.07.29 CN 114821597 A 1.一种文本识别的方法, 其特 征在于, 所述方法包括: 获取待识别的文本图像; 将所述文本图像作为预先训练 的文本识别模型的输入, 以得到所述文本识别模型输出 的所述文本图像对应的目标识别文本; 其中, 所述文本识别模型是对预设训练模型通过第 一目标损失函数和第 二目标损失函 数训练后得到的, 所述第一目标损失函数是根据样本图像对应的目标样本图像和所述目标 样本图像对应的第一样本识别文本得到的, 所述第二 目标损失函数是根据样本图像、 所述 样本图像对应的第二样本识别文本以及所述第二样本识别文本中每个字符的权重系数得 到的, 所述目标样本图像为按照一个或多个预设处理方式分别对所述样本图像进 行处理后 得到的图像, 不同的预设处 理方式对应不同的目标样本图像。 2.根据权利要求1所述的方法, 其特征在于, 所述文本识别模型包括: 图像预处理模型、 特征提取模型、 序列模型以及解码模型, 所述图像预处理模型的输出端与所述特征提取模 型的输入端耦合, 所述特征提取模型 的输出端与所述序列模型的输入端耦合; 所述序列模 型的输出端与所述解码模型的输入端耦合; 所述将所述文本图像作为预先训练的文本识别 模型的输入, 以得到所述文本识别模型输出的所述文本图像对应的目标识别文本包括: 将所述文本图像输入所述图像预处理模型, 通过所述图像预处理模型对所述文本图像 进行灰度 处理, 得到所述文本图像对应的固定尺寸的灰度图像, 并将所述灰度图像转换为 灰度图像矩阵, 以得到所述图像预处 理模型输出的灰度图像矩形; 将所述灰度图像矩阵输入所述特征提取模型, 通过所述特征提取模型对所述灰度图像 矩阵进行 下采样处 理, 以得到所述特 征提取模型输出的向量序列; 将所述向量序列输入所述序列模型, 以得到所述序列模型输出的序列特 征; 将所述序列 特征输入所述解码模型, 以得到所述解码模型输出的所述文本图像对应的 目标识别文本 。 3.根据权利要求1或2所述的方法, 其特征在于, 所述文本识别模型是通过以下方式训 练得到的: 获取样本图像, 以及所述样本图像对应的第二样本识别文本; 按照一个或多个预设处理方式分别对所述样本图像进行处理后得到所述目标样本图 像; 根据所述目标样本图像和所述目标样本图像对应的第一样本识别文本得到所述第一 目标损失函数; 通过所述第一目标损失函数对所述预设训练模型进行训练, 得到待定识别模型; 根据所述样本图像、 所述样本图像对应的第 二样本识别文本以及所述第 二样本识别文 本中每个字符的权 重系数得到所述第二目标损失函数; 通过所述第二目标损失函数对所述待定识别模型进行训练, 得到所述文本识别模型。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述目标样本图像和所述目标样 本图像对应的第一样本识别文本得到所述第一目标损失函数包括: 根据所述第一样本识别文本, 确定第一样本文本中每个字符识别正确的第一概率值; 所述第一样本文本为所述目标样本图像输入所述预设训练模型后得到的; 根据所述第一 概率值, 确定所述目标样本图像识别正确的第二 概率值;权 利 要 求 书 1/3 页 2 CN 114821597 A 2根据所述第二 概率值, 确定所述预设训练模型识别正确的第一目标概 率值; 根据所述第一目标概 率值, 确定所述第一目标损失函数。 5.根据权利要求6所述的方法, 其特征在于, 所述通过所述第 一目标损失函数对所述预 设训练模型进行训练, 得到待定识别模型包括: 循环执行第 一模型训练步骤, 直至根据所述第 一目标损失函数确定训练后的预设训练 模型满足第一预设收敛 条件, 将训练后的预设训练模型作为所述待定识别模型; 所述第一模型训练步骤 包括: 将多个所述目标样本图像输入所述预设训练模型, 以获取所述预设训练模型输出的每 个所述目标样本图像对应的所述第一样本文本; 根据所述第 一目标损失函数, 确定所述第 一样本文本与 所述第一样本识别文本的第 一 损失值; 其中, 所述第一损失值用于表征所述第一样本文本和所述第一样本识别文本的差 异程度; 在根据所述第一损失值确定训练后的预设训练模型不满足所述第一预设收敛条件的 情况下, 根据所述第一损失值更新所述预设训练模 型的参数, 得到训练后的预设训练模型, 并将该训练后的预设训练模型作为 新的预设训练模型。 6.根据权利要求3所述的方法, 其特征在于, 所述根据所述样本 图像、 所述样本 图像对 应的第二样本识别文本以及所述第二样本识别文本中每个字符的权重系数得到所述第二 目标损失函数包括: 根据所述第二样本识别文本, 确定第二样本文本中每个字符识别正确的第三概率值; 所述第二样本文本为所述样本图像输入所述待定识别模型后得到的; 根据所述第三 概率值, 确定所述样本图像识别正确的第四概 率值; 获取所述第二样本识别文本中每 个字符的权 重系数; 根据所述第四概率值和所述权重系数, 确定所述待定识别模型识别正确的第 二目标概 率值; 根据所述第二目标概 率值, 确定所述第二目标损失函数。 7.根据权利要求6所述的方法, 其特征在于, 所述获取所述第 二样本识别文本中每个字 符的权重系数包括: 获取所述第二样本识别文本中每 个字符出现的频率 值; 获取所述频率 值中的最高频率 值和最低频率 值; 根据所述频率 值、 所述最高频率 值和所述 最低频率 值, 确定所述权 重系数。 8.根据权利要求6所述的方法, 其特征在于, 所述通过所述第 二目标损失函数对所述待 定识别模型进行训练, 得到所述文本识别模型包括: 循环执行第 二模型训练步骤, 直至根据所述第 二目标损失函数确定训练后的待定识别 模型满足第二预设收敛 条件, 将训练后的待定识别模型作为所述文本识别模型; 所述第二模型训练步骤 包括: 将多个所述样本图像输入所述待定识别模型, 以获取所述待定识别模型输出的每个所 述样本图像对应的所述第二样本文本; 根据所述第 二目标损失函数, 确定所述第 二样本文本与 所述第二样本识别文本的第 二 损失值; 其中, 所述第二损失值用于表征所述第二样本文本和所述第二样本识别文本的差权 利 要 求 书 2/3 页 3 CN 114821597 A 3

PDF文档 专利 文本识别的方法、装置、存储介质和电子设备

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本识别的方法、装置、存储介质和电子设备 第 1 页 专利 文本识别的方法、装置、存储介质和电子设备 第 2 页 专利 文本识别的方法、装置、存储介质和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。