行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111626958.8 (22)申请日 2021.12.28 (71)申请人 合肥讯飞数码科技有限公司 地址 230000 安徽省合肥市(安徽)自由贸 易试验区合肥市高新区望江西路666 号人工智能云服 务平台研发楼 (72)发明人 张浩宇 汪小斌 吴飞 方四安  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 代理人 刘希 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06F 40/205(2020.01) G06N 20/00(2019.01) (54)发明名称 实体抽取方法、 第一实体抽取模型的训练方 法及相关装置 (57)摘要 本申请公开了一种实体抽取方法、 第一实体 抽取模型的训练方法及相关装置, 该实体抽取方 法包括: 获取待抽取文本; 将待抽取文本输入至 训练后的第一实体抽取模型中以获得待抽取文 本中的实体以及实体的类型; 其中, 训练第一实 体抽取模型时利用噪声数据集; 且噪声数据集预 先经过第二实体抽取模型获得漏标注片段集合、 错误标注片段集合、 正确标注片段集合和无意义 标注片段集合, 且利用错误标注片段集合、 正确 标注片段集合和无意义标注片段集合训练第一 实体抽取模 型, 而禁止漏标注片段集合加入训练 过程。 这样不仅提升了模型对带噪声数据的泛化 性能, 而且 无需人工参与便可训练得到高泛化性 的实体抽取方法。 权利要求书4页 说明书15页 附图8页 CN 114330320 A 2022.04.12 CN 114330320 A 1.一种实体抽取 方法, 其特 征在于, 包括: 获取待抽取文本; 将所述待抽取文本输入至训练后的第一实体抽取模型中以获得所述待抽取文本中的 实体以及所述 实体的类型; 其中, 训练所述第一 实体抽取模型时利用噪声 数据集; 且所述噪 声数据集预先经过第二实体抽取模型获得漏标注片段集合、 错误标注片段集合、 正确标注 片段集合和无意义标注片段集合, 且利用所述错误标注片段集合、 所述正确标注片段集合 和所述无意义标注片段集合训练所述第一实体抽取模型, 而禁止所述漏标注片段集合加入 训练过程; 其中, 所述漏标注片段集合包括所述噪声数据集中人工漏标注但被所述第二实 体抽取模型正确预测出的实体片段, 所述错误标注片段集合包括人工标注类型与对应的预 测类型不同的实体片段, 所述正确标注片段集合包括被人工标注类型与对应的预测类型相 同的实体片段, 所述无意义标注片段集合包括人工未标注且不属于所述漏标注片段集合的 实体片段。 2.根据权利要求1所述的实体抽取方法, 其特征在于, 训练所述第 一实体抽取模型的过 程包括: 利用所述第二实体抽取模型获得所述噪声数据集中所有第一预测结果与人工标注结 果不一致的实体片段构成的问题片段集合、 以及第一预测结果与人工标注结果一致的实体 片段构成的正确片段集合; 其中, 所述第一预测结果包括预测实体及预测类型, 所述人工标 注结果包括人工标注实体及人工标注类型; 对所述问题片段集合进行分类, 以获得所述漏标注片段集合、 所述错误标注片段集合 和所述无意 义标注片段集 合; 利用所述错误标注片段集合、 所述正确标注片段集合和所述无意义标注片段集合训练 所述第一实体抽取模型, 且禁止利用所述漏标注片段集 合训练所述第一实体抽取模型。 3.根据权利要求2所述的实体抽取方法, 其特征在于, 所述利用所述第 二实体抽取模型 获得所述噪声数据集中所有预测结果与人工标注结果不一致的实体片段构成的问题片段 集合的步骤, 包括: 将所述噪声数据集分割为多份子数据集; 将其中一份子数据集作为测试 数据, 且将剩余所述子数据集作为训练数据; 设置多个不同的随机种子以分别获得多个第二实体抽取模型; 针对每个所述第 二实体抽取模型, 利用所述训练数据对所述第 二实体抽取模型进行训 练; 利用训练后的所述第二实体抽取模型对所述测试数据进行预测以获得相应的第一预 测结果, 并根据所述第一预测结果获得与人工标注结果 不一致的候选实体片段; 对所有所述第 二实体抽取模型获得的所有所述候选实体片段进行统计, 且响应于同一 所述候选实体片段累计的次数超过第一阈值, 将所述候选实体片段确定为问题片段, 并将 所述问题片段加入所述问题片段集 合; 判断所有所述子数据集是否均轮流作为所述测试 数据; 若否, 将另一所述子数据集作为所述测试数据, 且将剩余所述子数据集作为训练数据, 并返回至所述设置多个不同的随机种子以分别获得多个第二实体抽取模型的步骤。 4.根据权利要求3所述的实体抽取 方法, 其特 征在于,权 利 要 求 书 1/4 页 2 CN 114330320 A 2所述第二实体抽取模型包括第 一预训练模型和第 一全连接层, 且所述第 一预训练模型 的输出为所述第一全连接层的输入; 所述利用所述训练数据对所述第二 实体抽取模型进 行 训练的步骤, 包括: 对所述训练数据中的文本数据进行分词处理后输入至第 一预训练模型中, 以获得所述 文本数据中每 个单词的第一语义向量; 对所有所述第一语义向量进行负采样以获得多个第一组合片段; 其中, 所述第一组合 片段中包括人工标注的实体片段以及非人工标注的实体片段; 响应于所述第 一组合片段的宽度小于或等于第 二阈值, 获得所述第 一组合片段的第 二 语义向量; 将所述第二语义向量输入至所述第一全连接层以获得第一预测分类l ogit向量; 基于所述人工标注的实体片段和部分所述非人工标注的实体片段的预测结果调整所 述第二实体抽取模型中的参数。 5.根据权利要求 4所述的实体抽取 方法, 其特 征在于, 所述对所述训练数据中的训练文本进行分词处理后输入至第 一预训练模型中, 以获得 所述训练文本中每个单词的第一语义向量的步骤之前, 包括: 随机初始化第一宽度限制向 量矩阵; 其中, 所述第一宽度限制向量矩阵中包 含多个宽度特 征向量; 所述响应于所述第 一组合片段的宽度小于或等于第 二阈值, 获得所述第 一组合片段的 第二语义向量的步骤, 包括: 获得所述第一组合片段中起始单词的第一语义向量以及结束 单词的第一语义向量; 将所述起始单词的第一语义向量、 结束单词的第一语义向量以及对 应的宽度特 征向量进行拼接以获得 所述第二语义向量; 所述基于所述人工标注的实体片段和部分所述非人工标注的实体片段的预测结果调 整所述第二实体抽取模型中的参数时, 一并调整所述第一宽度限制向量矩阵中的参数。 6.根据权利要求2所述的实体抽取 方法, 其特 征在于, 所述第一实体抽取模型包括第 二预训练模型和第 二全连接层, 且所述第 二预训练模型 的输出为所述第二全连接层的输入; 所述利用所述错误标注片段集合、 所述正确标注片段 集合和所述无意义标注片段集合训练所述第一实体抽取模型, 且禁止利用所述漏标注片段 集合训练所述第一实体抽取模型的步骤, 包括: 将所述噪声数据集中的文本数据进行分词处理后输入至第 二预训练模型中, 以获得所 述文本数据中每 个单词的第三语义向量; 对所有所述第三语义向量进行负采样组合以获得多个第二组合片段; 响应于所述第 二组合片段的宽度小于或等于第 二阈值, 获得所述第 二组合片段的第四 语义向量; 将所述第四语义向量输入至所述第二全连接层以获得第二预测分类l ogit向量; 响应于所述第 二组合片段的跨度在所述正确标注片段集合、 所述无意义标注片段集合 和所述错误标注片段集合, 根据至少部 分所述第二组合片段所属的集合类型获得相应的第 一损失, 基于所述第一损失调整所述第一实体抽取模型中的参数。 7.根据权利要求6所述的实体抽取方法, 其特征在于, 所述根据至少部分所述第 二组合 片段所属的集 合类型获得相应的第一损失的步骤, 包括: 响应于所述第二组合片段的跨度在所述正确标注片段集合或所述无意义标注片段集权 利 要 求 书 2/4 页 3 CN 114330320 A 3

.PDF文档 专利 实体抽取方法、第一实体抽取模型的训练方法及相关装置

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实体抽取方法、第一实体抽取模型的训练方法及相关装置 第 1 页 专利 实体抽取方法、第一实体抽取模型的训练方法及相关装置 第 2 页 专利 实体抽取方法、第一实体抽取模型的训练方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:17:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。