行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111628585.8 (22)申请日 2021.12.28 (71)申请人 中科曙光 南京研究院有限公司 地址 211100 江苏省南京市江宁区诚信大 道519号芳园中路 (72)发明人 杨珂 吕晓宝 王元兵 王海荣  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 代理人 徐博 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/232(2020.01) G06F 40/216(2020.01) G06F 16/36(2019.01)G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 一种文本纠错方法 (57)摘要 本发明公开了一种文本纠错方法, 该方法包 括步骤如下: 首先将获取的文本数据分割为若干 语义单位; 再对每个语义单位, 按照语义顺序逐 字遍历, 对遍历到的字进行掩盖, 并将掩盖后的 语义单位输入训练好的纠错模型中, 输出由若干 候选字组成的语义候选字字典; 通过将语义候选 字字典与原始字和原始字的混淆字字典进行比 对, 当判断原始字出现错误时, 输出最优的替换 字, 当判断原始字未出现错误时, 则不进行替换 更改; 对语义单位逐字遍历纠错后再统一利用替 换字修改错误字完成第一轮纠错, 重复执行多轮 纠错, 直至语义单位中不存在错误或完成设定轮 次的纠错。 该种文本纠错方法纠错效率高, 能够 减少文本 本身错误导致的正确字误判的问题。 权利要求书1页 说明书5页 附图1页 CN 114429136 A 2022.05.03 CN 114429136 A 1.一种文本纠错方法, 其特 征在于: 该 方法包括 步骤如下: (1)获取文本数据后, 按照文本内语义分割符号将文本分割为若干语义单位; (2)对每个语义单位, 按照语义顺序逐字遍历, 对遍历到的字进行掩盖, 并将掩盖后的 语义单位输入训练好的纠错模型中, 输出由若干候选 字组成语义 候选字字典; (3)通过将语义候选字字典与原始字和原始字的混淆字字典进行比对, 当判断原始字 出现错误时, 输出最优的替换字, 当判断原 始字未出现错误时, 则不进行替换 更改; (4)对语义单位逐字遍历纠错后再统一利用替换字修改错误字完成第一轮纠错, 将完 成第一轮纠错的语义单位重复执行步骤(2)和步骤(3), 直至语义单位中不存在错误或完成 设定轮次的纠错。 2.根据权利要求1所述的一种文本纠错方法, 其特征在于: 所述的步骤(2)中纠错模型 采用bert模型, 训练文本采用目标领域的文本文档, 对训练用的文本文档同样按照文本内 语义分割符号将文本分割为若干语义单位, 训练过程中利用训练文本的语义单位对纠错模 型进行有监 督预测, 直至纠错模型模型收敛。 3.根据权利要求2所述的一种 文本纠错方法, 其特征在于: 所述的纠错模型训练过程中 针对文本文档中的中文字符, 进行掩盖预测、 词语替换 预测或词语不 替换预测。 4.根据权利要求3所述的一种 文本纠错方法, 其特征在于: 所述的纠错模型训练用的文 本文档中的部分正确字替换为 易混淆字后用于纠错模型训练。 5.根据权利要求1所述的一种文本纠错方法, 其特征在于: 所述的步骤(3)中当语义候 选字字典中存在原始字, 则判定原始字正确; 若语义候选字字典 中不存在原始字, 则将 语义 候选字字典内的字按纠错模型预测 概率得分由高到低逐一与原始字的混淆字字典进行比 对, 当发现语义候选字存在于混淆字字典内, 将该字作为替换字输出, 同时终止比对; 当语 义候选字字典内的全部 字均不存在于混淆字 字典内时, 则判定原 始字正确。 6.根据权利要求5所述的一种 文本纠错方法, 其特征在于: 所述的纠错模型对掩盖字预 测后按照概率得分由高到低输出语义候选字, 将指 定数量或概率超过指定阈值的语义候选 字组成语义 候选字字典。 7.根据权利要求5所述的一种 文本纠错方法, 其特征在于: 所述的混淆字字典包括原始 字的同音字、 近音字, 形近 字以及使用者日常输入原 始字时产生的错 误字。权 利 要 求 书 1/1 页 2 CN 114429136 A 2一种文本纠错方 法 技术领域 [0001]本发明属于计算机应用领域, 具体涉及一种文本纠错方法。 背景技术 [0002]随着计算机技术的普及, 对电子化文件的需求也大大增加, 越来越多的企业倾向 于使用电子文档为日常的基础。 在大量使用电子文档的基础中, 针对文档中错字进行纠错 存在需求。 [0003]利用新兴的人工智能技术, 通过使用大量文本训练的方式, 使模型学习人类使用 语言时的基本逻辑, 从而 可以分析文本中某个位置可能使用的字词, 结合针对字词的拼音, 字形等特征, 对文本进行纠错。 然而, 目前技术存在着纠错范围狭窄, 文本本身错误导致正 确字词误判的问题。 发明内容 [0004]发明目的: 本发明的目的在于提供一种文本纠错方法。 [0005]技术方案: 本发明所述的一种文本纠错方法, 其特 征在于: 该 方法包括 步骤如下: [0006](1)获取文本数据后, 按照文本内语义分割符号将文本分割为若干语义单位; [0007](2)对每个语义单位, 按照语义顺序逐字遍历, 对遍历到的字进行掩盖, 并将掩盖 后的语义单位输入训练好的纠错模型中, 输出由若干候选 字组成语义 候选字字典; [0008](3)通过将语义候选字字典与原始字和原始字的混淆字字典进行比对, 当判断原 始字出现错 误时, 输出最优的替换字, 当判断原 始字未出现错误时, 则不进行替换 更改; [0009](4)对语义单位逐字遍历纠错后再统一利用替换字修改错误字完成第一轮纠错, 将完成第一轮纠错的语义单位重复执行步骤(2)和步骤(3), 直至语义单位中不存在错误或 完成设定轮次的纠错。 [0010]优选的, 步骤(2)中纠错模型采用bert模型, 训练文本采用目标领域 的文本文档, 对训练用的文本文档同样按照文本内语义分割符号将文本 分割为若干语义单位, 训练过程 中利用训练文本的语义单位对纠错模型进行有监 督预测, 直至纠错模型模型收敛。 [0011]优选的, 纠错模型训练过程中针对文本文档中的中文字符, 进行掩盖预测、 词语替 换预测或词语不 替换预测。 [0012]优选的, 纠错模型训练用的文本文档中的部分正确字替换为易混淆字后用于纠错 模型训练。 [0013]优选的, 步骤(3)中当语义候选字字典中存在原始字, 则判定原始字正确; 若语义 候选字字典中不存在原始字, 则将语义候选字字典内的字按纠错模型预测概率得分由高到 低逐一与原始字的混淆字字典进行比对, 当发现语义候选字存在于混淆字字典内, 将该字 作为替换字输出, 同时终止比对; 当语义候选字字典内的全部字均不存在于混淆字字典内 时, 则判定原 始字正确。 [0014]优选的, 纠错模型对掩盖字预测后按照概率得分又高到低输出语义候选字, 将指说 明 书 1/5 页 3 CN 114429136 A 3

.PDF文档 专利 一种文本纠错方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本纠错方法 第 1 页 专利 一种文本纠错方法 第 2 页 专利 一种文本纠错方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:18:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。