专利实体抽取方法、第一实体抽取模型的训练方法及相关装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111626958.8 (22)申请日 2021.12.28 (71)申请人合肥讯飞数码科技有限公司地址 230000 安徽省合肥市(安徽)自由贸易试验区合肥市高新区望江西路666 号人工智能云服务平台研发楼 (72)发明人张浩宇　汪小斌　吴飞　方四安　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人刘希 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06F 40/205(2020.01) G06N 20/00(2019.01) (54)发明名称实体抽取方法、第一实体抽取模型的训练方法及相关装置 (57)摘要本申请公开了一种实体抽取方法、第一实体抽取模型的训练方法及相关装置，该实体抽取方法包括：获取待抽取文本；将待抽取文本输入至训练后的第一实体抽取模型中以获得待抽取文本中的实体以及实体的类型；其中，训练第一实体抽取模型时利用噪声数据集；且噪声数据集预先经过第二实体抽取模型获得漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合，且利用错误标注片段集合、正确标注片段集合和无意义标注片段集合训练第一实体抽取模型，而禁止漏标注片段集合加入训练过程。这样不仅提升了模型对带噪声数据的泛化性能，而且无需人工参与便可训练得到高泛化性的实体抽取方法。权利要求书4页说明书15页附图8页 CN 114330320 A 2022.04.12 CN 114330320 A 1.一种实体抽取方法，其特征在于，包括：获取待抽取文本；将所述待抽取文本输入至训练后的第一实体抽取模型中以获得所述待抽取文本中的实体以及所述实体的类型；其中，训练所述第一实体抽取模型时利用噪声数据集；且所述噪声数据集预先经过第二实体抽取模型获得漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合，且利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型，而禁止所述漏标注片段集合加入训练过程；其中，所述漏标注片段集合包括所述噪声数据集中人工漏标注但被所述第二实体抽取模型正确预测出的实体片段，所述错误标注片段集合包括人工标注类型与对应的预测类型不同的实体片段，所述正确标注片段集合包括被人工标注类型与对应的预测类型相同的实体片段，所述无意义标注片段集合包括人工未标注且不属于所述漏标注片段集合的实体片段。 2.根据权利要求1所述的实体抽取方法，其特征在于，训练所述第一实体抽取模型的过程包括：利用所述第二实体抽取模型获得所述噪声数据集中所有第一预测结果与人工标注结果不一致的实体片段构成的问题片段集合、以及第一预测结果与人工标注结果一致的实体片段构成的正确片段集合；其中，所述第一预测结果包括预测实体及预测类型，所述人工标注结果包括人工标注实体及人工标注类型；对所述问题片段集合进行分类，以获得所述漏标注片段集合、所述错误标注片段集合和所述无意义标注片段集合；利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型，且禁止利用所述漏标注片段集合训练所述第一实体抽取模型。 3.根据权利要求2所述的实体抽取方法，其特征在于，所述利用所述第二实体抽取模型获得所述噪声数据集中所有预测结果与人工标注结果不一致的实体片段构成的问题片段集合的步骤，包括：将所述噪声数据集分割为多份子数据集；将其中一份子数据集作为测试数据，且将剩余所述子数据集作为训练数据；设置多个不同的随机种子以分别获得多个第二实体抽取模型；针对每个所述第二实体抽取模型，利用所述训练数据对所述第二实体抽取模型进行训练；利用训练后的所述第二实体抽取模型对所述测试数据进行预测以获得相应的第一预测结果，并根据所述第一预测结果获得与人工标注结果不一致的候选实体片段；对所有所述第二实体抽取模型获得的所有所述候选实体片段进行统计，且响应于同一所述候选实体片段累计的次数超过第一阈值，将所述候选实体片段确定为问题片段，并将所述问题片段加入所述问题片段集合；判断所有所述子数据集是否均轮流作为所述测试数据；若否，将另一所述子数据集作为所述测试数据，且将剩余所述子数据集作为训练数据，并返回至所述设置多个不同的随机种子以分别获得多个第二实体抽取模型的步骤。 4.根据权利要求3所述的实体抽取方法，其特征在于，权　利　要　求　书 1/4 页 2 CN 114330320 A 2所述第二实体抽取模型包括第一预训练模型和第一全连接层，且所述第一预训练模型的输出为所述第一全连接层的输入；所述利用所述训练数据对所述第二实体抽取模型进行训练的步骤，包括：对所述训练数据中的文本数据进行分词处理后输入至第一预训练模型中，以获得所述文本数据中每个单词的第一语义向量；对所有所述第一语义向量进行负采样以获得多个第一组合片段；其中，所述第一组合片段中包括人工标注的实体片段以及非人工标注的实体片段；响应于所述第一组合片段的宽度小于或等于第二阈值，获得所述第一组合片段的第二语义向量；将所述第二语义向量输入至所述第一全连接层以获得第一预测分类l ogit向量；基于所述人工标注的实体片段和部分所述非人工标注的实体片段的预测结果调整所述第二实体抽取模型中的参数。 5.根据权利要求 4所述的实体抽取方法，其特征在于，所述对所述训练数据中的训练文本进行分词处理后输入至第一预训练模型中，以获得所述训练文本中每个单词的第一语义向量的步骤之前，包括：随机初始化第一宽度限制向量矩阵；其中，所述第一宽度限制向量矩阵中包含多个宽度特征向量；所述响应于所述第一组合片段的宽度小于或等于第二阈值，获得所述第一组合片段的第二语义向量的步骤，包括：获得所述第一组合片段中起始单词的第一语义向量以及结束单词的第一语义向量；将所述起始单词的第一语义向量、结束单词的第一语义向量以及对应的宽度特征向量进行拼接以获得所述第二语义向量；所述基于所述人工标注的实体片段和部分所述非人工标注的实体片段的预测结果调整所述第二实体抽取模型中的参数时，一并调整所述第一宽度限制向量矩阵中的参数。 6.根据权利要求2所述的实体抽取方法，其特征在于，所述第一实体抽取模型包括第二预训练模型和第二全连接层，且所述第二预训练模型的输出为所述第二全连接层的输入；所述利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型，且禁止利用所述漏标注片段集合训练所述第一实体抽取模型的步骤，包括：将所述噪声数据集中的文本数据进行分词处理后输入至第二预训练模型中，以获得所述文本数据中每个单词的第三语义向量；对所有所述第三语义向量进行负采样组合以获得多个第二组合片段；响应于所述第二组合片段的宽度小于或等于第二阈值，获得所述第二组合片段的第四语义向量；将所述第四语义向量输入至所述第二全连接层以获得第二预测分类l ogit向量；响应于所述第二组合片段的跨度在所述正确标注片段集合、所述无意义标注片段集合和所述错误标注片段集合，根据至少部分所述第二组合片段所属的集合类型获得相应的第一损失，基于所述第一损失调整所述第一实体抽取模型中的参数。 7.根据权利要求6所述的实体抽取方法，其特征在于，所述根据至少部分所述第二组合片段所属的集合类型获得相应的第一损失的步骤，包括：响应于所述第二组合片段的跨度在所述正确标注片段集合或所述无意义标注片段集权　利　要　求　书 2/4 页 3 CN 114330320 A 3

专利 实体抽取方法、第一实体抽取模型的训练方法及相关装置

专利实体抽取方法、第一实体抽取模型的训练方法及相关装置