专利 一种信息抽取方法及装置、存储介质、计算机设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210942486.5 (22)申请日 2022.08.08 (65)同一申请的已公布的文献号申请公布号 CN 114996434 A (43)申请公布日 2022.09.02 (73)专利权人深圳前海环融联易信息科技服务有限公司地址 518066 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司) (72)发明人谢翀　陈永红　罗伟杰　黄开梅　 (74)专利代理机构北京中强智尚知识产权代理有限公司 1 1448 专利代理师郭晓迪 (51)Int.Cl. G06F 16/332(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) (56)对比文件 CN 114297394 A,202 2.04.08 CN 111767334 A,2020.10.13 CN 113268573 A,2021.08.17 CN 113535963 A,2021.10.2 2 CN 114706963 A,2022.07.05 CN 111814466 A,2020.10.23 US 2021192149 A1,2021.0 6.24 US 2022198149 A1,202 2.06.23 徐霄玲等.机器阅读理解的技术研究综述. 《小型微型计算机系统》 .2020,(第0 3期),第18- 24页. 审查员石梦洁 (54)发明名称一种信息抽取方法及装置、存储介质、计算机设备 (57)摘要本申请公开了一种信息抽取方法及装置、存储介质、计算机设备，该方法包括：通过文本分类模型识别目标文本的目标文本类别；获取所述目标文本类别对应的多个目标抽取问题，分别将每个所述目标抽取问题与所述目标文本进行拼接，得到每个所述目标抽取问题对应的信息抽取文本，并将所述信息抽取文本输入到信息抽取模型中获得每个所述目标抽取问题对应的待校验答案；获取每个所述待校验答案所在的文本语句，依据所述目标抽取问题的问题类别，确定所述待校验答案的答案类别，并依据所述文本语句以及所述待校验答案，构建节点拓扑图；将所述节点拓扑图输入到节点校验模型中，校验每个所述待校验答案节点对应的所述待校验答案是否正确。权利要求书3页说明书15页附图4页 CN 114996434 B 2022.11.08 CN 114996434 B 1.一种信息抽取方法，其特征在于，所述方法包括：通过文本分类模型识别目标文本的目标文本类别；获取所述目标文本类别对应的多个目标抽取问题，分别将每个所述目标抽取问题与所述目标文本进行拼接，得到每个所述目标抽取问题对应的信息抽取文本，并将所述信息抽取文本输入到信息抽取模型中获得每个所述目标抽取问题对应的待校验答案，其中，所述目标抽取问题中包括一个主要类别问题和至少一个次要类别问题；获取每个所述待校验答案所在的文本语句，依据所述目标抽取问题的问题类别，确定所述待校验答案的答案类别，并依据所述文本语句以及所述待校验答案，构建节点拓扑图，其中，所述节点拓扑图包括文本语句节点、主要类别答案节点、次要类别答案节点以及不同类型节点的连接关系；将所述节点拓扑图输入到节点校验模型中，校验每个主要类别答案节点对应的所述待校验答案以及每个次要类别答案节点对应的待校验答案是否正确；其中，本轮初始模型参数包括本轮初始文本分类模型参数、本轮初始信息抽取模型参数以及本轮初始节点校验模型参数；所述节点校验模型包括卷积层和分类层，所述文本分类模型、所述信息抽取模型以及所述节点校验模型通过以下模型训练方式获得：服务器在客户端集合中采样多个本轮客户端，将本轮初始模型参数发送至所述本轮客户端中，所述本轮客户端按所述本轮初始模型参数配置本地模型后进行模型训练，得到训练后的本轮目标模型参数，并将所述本轮目标模型参数返回至所述服务器中，其中，若所述本轮客户端为非首次被采样，则依据所述本轮初始文本分类模型参数、所述本轮初始信息抽取模型参数以及所述本轮初始节点校验模型参数中的卷积层参数，分别对当前文本分类模型、当前信息抽取模型以及当前节点校验模型的卷积层进行模型参数配置，并保持所述本轮初始节点校验模型参数中的分类层参数不变；所述服务器对多个所述本轮客户端各自返回的所述本轮目标模型参数进行参数聚合，得到本轮聚合参数；当所述本轮聚合参数未达到所述服务器的采样条件时，将所述本轮聚合参数作为下轮初始模型参数，并在所述客户端集合中重新采样多个下轮客户端，向所述下轮客户端发送所述下轮初始模型参数，以通过所述下轮客户端进行下个轮次的模型训练；当所述本轮聚合参数达到所述服务器的采样条件时，将所述本轮聚合参数发送至所述客户端集合内的每个客户端中，每个所述客户端按所述本轮聚合参数配置本地模型后进行最后一轮模型训练。 2.根据权利要求1所述的方法，其特征在于，所述根据所述文本语句以及所述待校验答案，构建节点拓扑图，包括：依据所述文本语句以及不同类型的所述待校验答案，确定文本语句节点、主要类别答案节点以及次要类别答案节点；对所述文本语句节点、所述主要类别答案节点以及所述次要类别答案节点进行两两组合，并建立包含组合节点和组合节点的节点关系的三元组；依据所述三元组，构建所述节点拓扑图。 3.根据权利要求1所述的方法，其特征在于，所述将所述节点拓扑图输入到节点校验模型中，校验每个所述待校验答案节点对应的所述待校验答案是否正确之后，所述方法还包权　利　要　求　书 1/3 页 2 CN 114996434 B 2括：获取所述待校验答案中校验结果为正确的目标答案；确定所述目标文本类别对应的目标信息抽取表单，并将所述目标答案填充在所述目标信息抽取表单的对应位置。 4.根据权利要求1至3中任一项所述的方法，其特征在于，所述服务器在客户端集合中采样多个本轮客户端之前，所述方法还包括：初始化元模型参数，将所述元模型的初始化参数作为第一轮初始模型参数，其中，所述客户端集合中每个所述客户端对应的本地模型的模型结构均与所述元模型的模型结构相同。 5.根据权利要求 4所述的方法，其特征在于，所述方法还包括：所述本轮客户端将所述本轮目标模型参数以及本轮训练样本量返回至所述服务器中；所述服务器对多个所述本轮客户端各自返回的所述本轮目标模型参数进行参数聚合，得到本轮聚合参数，包括：所述服务器根据每个所述本轮客户端对应的所述本轮训练样本量占本轮训练样本总数的比例，确定每个所述本轮客户端对应的所述本轮目标模型参数的参数权重，并按所述参数权重对所述本轮目标模型参数进行加权求和，得到所述本轮聚合参数。 6.根据权利要求 4所述的方法，其特征在于，所述方法还包括：若所述本轮客户端为首次被采样，则依据所述本轮初始文本分类模型参数、所述本轮初始信息抽取模型参数以及所述本轮初始节点校验模型参数，分别对当前文本分类模型、当前信息抽取模型以及当前节点校验模型进行模型参数配置。 7.一种信息抽取装置，其特征在于，所述装置包括：文本分类模块，用于通过文本分类模型识别目标文本的目标文本类别；信息抽取模块，用于获取所述目标文本类别对应的多个目标抽取问题，分别将每个所述目标抽取问题与所述目标文本进行拼接，得到每个所述目标抽取问题对应的信息抽取文本，并将所述信息抽取文本输入到信息抽取模型中获得每个所述目标抽取问题对应的待校验答案，其中，所述目标抽取问题中包括一个主要类别问题和至少一个次要类别问题；拓扑图构建模块，用于获取每个所述待校验答案所在的文本语句，依据所述目标抽取问题的问题类别，确定所述待校验答案的答案类别，并依据所述文本语句以及所述待校验答案，构建节点拓扑图，其中，所述节点拓扑图包括文本语句节点、主要类别答案节点、次要类别答案节点以及不同类型节点的连接关系；答案校验模块，用于将所述节点拓扑图输入到节点校验模型中，校验每个主要类别答案节点对应的所述待校验答案以及每个次要类别答案节点对应的待校验答案是否正确；其中，本轮初始模型参数包括本轮初始文本分类模型参数、本轮初始信息抽取模型参数以及本轮初始节点校验模型参数；所述节点校验模型包括卷积层和分类层，所述文本分类模型、所述信息抽取模型以及所述节点校验模型通过以下模型训练方式获得：服务器在客户端集合中采样多个本轮客户端，将本轮初始模型参数发送至所述本轮客户端中，所述本轮客户端按所述本轮初始模型参数配置本地模型后进行模型训练，得到训练后的本轮目标模型参数，并将所述本轮目标模型参数返回至所述服务器中，其中，若所述本轮客户端为非首次被采样，则依据所述本轮初始文本分类模型参数、所述本轮初始信息权　利　要　求　书 2/3 页 3 CN 114996434 B 3

专利 一种信息抽取方法及装置、存储介质、计算机设备

专利一种信息抽取方法及装置、存储介质、计算机设备