(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210942486.5
(22)申请日 2022.08.08
(65)同一申请的已公布的文献号
申请公布号 CN 114996434 A
(43)申请公布日 2022.09.02
(73)专利权人 深圳前海环融联易信息科技 服务
有限公司
地址 518066 广东省深圳市前海深港合作
区前湾一路1号A栋201室(入驻深圳市
前海商务秘书 有限公司)
(72)发明人 谢翀 陈永红 罗伟杰 黄开梅
(74)专利代理 机构 北京中强智尚知识产权代理
有限公司 1 1448
专利代理师 郭晓迪
(51)Int.Cl.
G06F 16/332(2019.01)G06F 16/35(2019.01)
G06F 16/36(2019.01)
(56)对比文件
CN 114297394 A,202 2.04.08
CN 111767334 A,2020.10.13
CN 113268573 A,2021.08.17
CN 113535963 A,2021.10.2 2
CN 114706963 A,2022.07.05
CN 111814466 A,2020.10.23
US 2021192149 A1,2021.0 6.24
US 2022198149 A1,202 2.06.23
徐霄玲等.机 器阅读理解的技 术研究综述.
《小型微型计算机系统》 .2020,(第0 3期),第18-
24页.
审查员 石梦洁
(54)发明名称
一种信息抽取方法及装置、 存储介质、 计算
机设备
(57)摘要
本申请公开了一种信息抽取方法及装置、 存
储介质、 计算机设备, 该方法包括: 通过文本分类
模型识别目标文本的目标文本类别; 获取所述目
标文本类别对应的多个目标抽取问题, 分别将每
个所述目标抽取问题与所述目标文本进行拼接,
得到每个所述目标抽取问题对应的信息抽取文
本, 并将所述信息抽取文本输入到信息抽取模型
中获得每个所述目标抽取问题对应的待校验答
案; 获取每个所述待校验答案所在的文本语句,
依据所述目标抽取问题的问题类别, 确定所述待
校验答案的答案类别, 并依据所述文本语句以及
所述待校验答案, 构建节点拓扑图; 将所述节点
拓扑图输入到节点校验模型中, 校验每个所述待
校验答案节点对应的所述待校验答案是否正确。
权利要求书3页 说明书15页 附图4页
CN 114996434 B
2022.11.08
CN 114996434 B
1.一种信息抽取 方法, 其特 征在于, 所述方法包括:
通过文本分类模型识别目标文本的目标文本类别;
获取所述目标文本类别对应的多个目标抽取问题, 分别将每个所述目标抽取问题与 所
述目标文本进行拼接, 得到每个所述 目标抽取问题对应的信息抽取文本, 并将所述信息抽
取文本输入到信息抽取模型中获得每个所述 目标抽取问题对应的待校验答案, 其中, 所述
目标抽取问题中包括 一个主要类别问题和至少一个次要类别问题;
获取每个所述待校验答案所在的文本语句, 依据所述目标抽取问题的问题类别, 确定
所述待校验答案的答案类别, 并依据所述文本语句以及所述待校验答案, 构建节点拓扑图,
其中, 所述节点拓扑图包括文本语句节点、 主要类别答案节 点、 次要类别答案节点以及不同
类型节点的连接关系;
将所述节点拓扑图输入到节点校验模型中, 校验每个主要类别答案节点对应的所述待
校验答案以及每 个次要类别答案节点对应的待校验答案是否正确;
其中, 本轮初始模型参数包括本轮初始文本分类模型参数、 本轮初始信息抽取模型参
数以及本轮初始节点校验模型参数; 所述节点校验模型包括卷积层和分类层, 所述文本分
类模型、 所述信息抽取模型以及所述节点校验 模型通过以下模型训练方式获得:
服务器在客户端集合中采样多个本轮客户端, 将本轮初始模型参数发送至所述本轮客
户端中, 所述本轮客户端按所述本轮初始模型参数配置本地模型后进行模型训练, 得到训
练后的本轮目标模型参数, 并将所述本轮目标模型参数返回至所述服务器中, 其中, 若所述
本轮客户端为非首次被采样, 则依据所述本轮初始文本分类模型参数、 所述本轮初始信息
抽取模型参数以及所述本轮初始节点校验模型参数中的卷积层参数, 分别对当前文本 分类
模型、 当前信息抽取模型以及当前节点校验模型 的卷积层进行模型参数配置, 并保持所述
本轮初始 节点校验 模型参数中的分类层参数不变;
所述服务器对多个所述本轮客户端各自返回的所述本轮目标模型参数进行参数聚合,
得到本轮聚合 参数;
当所述本轮聚合参数未达到所述服务器的采样条件时, 将所述本轮聚合参数作为下轮
初始模型参数, 并在所述客户端集合中重新采样多个下轮客户端, 向所述下轮客户端发送
所述下轮初始模型参数, 以通过 所述下轮客户端 进行下个轮次的模型训练;
当所述本轮聚合参数达到所述服务器的采样条件时, 将所述本轮聚合参数发送至所述
客户端集合内的每个客户端中, 每个所述客户端按所述本轮聚合参数配置本地模型后进 行
最后一轮模型训练。
2.根据权利要求1所述的方法, 其特征在于, 所述根据所述文本语句以及所述待校验答
案, 构建节点拓扑图, 包括:
依据所述文本语句以及不同类型的所述待校 验答案, 确定文本语句节点、 主要类别答
案节点以及次要类别答案节点;
对所述文本语句节点、 所述主要类别答案节点以及所述 次要类别答案节点进行两两组
合, 并建立包 含组合节点和组合节点的节点关系的三元组;
依据所述 三元组, 构建所述节点拓扑图。
3.根据权利要求1所述的方法, 其特征在于, 所述将所述节点拓扑图输入到节点校验模
型中, 校验每个所述待校验答案节点对应的所述待校验答案是否正确之后, 所述方法还包权 利 要 求 书 1/3 页
2
CN 114996434 B
2括:
获取所述待校验答案中校验结果 为正确的目标答案;
确定所述目标文本类别对应的目标信 息抽取表单, 并将所述目标答案填充在所述目标
信息抽取表单的对应位置 。
4.根据权利要求1至3中任一项所述的方法, 其特征在于, 所述服务器在客户端集合中
采样多个本轮客户端之前, 所述方法还 包括:
初始化元模型参数, 将所述元模型的初始化参数作为第 一轮初始模型参数, 其中, 所述
客户端集合中每个所述客户端对应的本地模型的模型结构均与所述元模型的模型结构相
同。
5.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括:
所述本轮客户端将所述本轮目标模型参数以及本轮训练样本量返回至所述 服务器中;
所述服务器对多个所述本轮客户端各自返回的所述本轮目标模型参数进行参数聚合,
得到本轮聚合 参数, 包括:
所述服务器根据每个所述本轮客户端对应的所述本轮训练样本量占本轮训练样本总
数的比例, 确定每个所述本轮客户端对应的所述本轮目标模型参数 的参数权重, 并按所述
参数权重对所述本轮目标模型参数进行加权求和, 得到所述本轮聚合 参数。
6.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括:
若所述本轮客户端为首次被采样, 则依据所述本轮初始文本分类模型参数、 所述本轮
初始信息抽取模型参数以及所述本轮初始节点校验模型参数, 分别对当前文本分类模型、
当前信息抽取模型以及当前节点校验 模型进行模型参数配置 。
7.一种信息抽取装置, 其特 征在于, 所述装置包括:
文本分类模块, 用于通过文本分类模型识别目标文本的目标文本类别;
信息抽取模块, 用于获取所述目标文本类别对应的多个目标抽取问题, 分别将每个所
述目标抽取问题与所述目标文本进行拼接, 得到每个所述目标抽取问题对应的信息抽取文
本, 并将所述信息抽取文本输入到信息抽取模型中获得每个所述目标抽取问题对应的待校
验答案, 其中, 所述目标抽取问题中包括 一个主要类别问题和至少一个次要类别问题;
拓扑图构建模块, 用于获取每个所述待校验答案所在的文本语句, 依据所述目标抽取
问题的问题类别, 确定所述待校验答案的答案类别, 并依据所述文本语句以及所述待校验
答案, 构建节点拓扑图, 其中, 所述节点拓扑图包括文本语句节点、 主要类别答案节点、 次要
类别答案节点以及不同类型节点的连接关系;
答案校验模块, 用于将所述节点拓扑图输入到节点校验模型中, 校验每个主要类别答
案节点对应的所述待校验答案以及每 个次要类别答案节点对应的待校 验答案是否正确;
其中, 本轮初始模型参数包括本轮初始文本分类模型参数、 本轮初始信息抽取模型参
数以及本轮初始节点校验模型参数; 所述节点校验模型包括卷积层和分类层, 所述文本分
类模型、 所述信息抽取模型以及所述节点校验 模型通过以下模型训练方式获得:
服务器在客户端集合中采样多个本轮客户端, 将本轮初始模型参数发送至所述本轮客
户端中, 所述本轮客户端按所述本轮初始模型参数配置本地模型后进行模型训练, 得到训
练后的本轮目标模型参数, 并将所述本轮目标模型参数返回至所述服务器中, 其中, 若所述
本轮客户端为非首次被采样, 则依据所述本轮初始文本分类模型参数、 所述本轮初始信息权 利 要 求 书 2/3 页
3
CN 114996434 B
3
专利 一种信息抽取方法及装置、存储介质、计算机设备
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:37:36上传分享