行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211052681.7 (22)申请日 2022.08.30 (71)申请人 中国人民解 放军国防科技大 学 地址 210001 江苏省南京市秦淮区后标营 18号 (72)发明人 张骁雄 田昊 丁鲲 刘茗  杨琴琴 刘姗姗 蒋国权 刘浏  (74)专利代理 机构 长沙国科天河知识产权代理 有限公司 432 25 专利代理师 唐品利 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/332(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于改进TextRank的知识图谱补全方法和 装置 (57)摘要 本申请涉及知识图谱技术领域一种基于改 进TextRank的知 识图谱补全方法和装置。 该方法 通过获取知识问答系统知识 图谱中三元组的头 尾实体的文本描述信息, 及实体关系文本; 采用 替换法构造负样本, 将三元 组和负样本作为样本 集; 采用改进TextRank提取样本集中三元组的头 尾实体的描述摘要, 将描述摘要和实体 关系文本 拼接后输入ALBERT编码器, 并将得到的具有上下 位语义特征的特征矩阵经过平均池化和Bi GRU层 进行特征增强, 根据增强特征矩阵采用多任务学 习方式, 确定三元组中缺失的另 一实体, 完成智 能问答系统知识图谱补全任务。 采用本方法对智 能问答系统知识图谱进行补全, 可提高智能问答 系统搜索结果精准度, 实现所答即所问。 权利要求书4页 说明书14页 附图4页 CN 115422369 A 2022.12.02 CN 115422369 A 1.一种基于改进 TextRank的知识图谱补全方法, 其特 征在于, 所述方法包括: 获取智能问答系统知识图谱中多个三元组 的头实体和尾实体的文本描述信 息, 以及头 实体与尾实体之间的关系文本; 将多个所述三元组作为正样本集, 并根据所述正样本采用替换法构造负样本, 得到负 样本集; 将所述 正样本集和所述负 样本集作为样本集; 将样本集中三元组的头实体和尾实体的文本描述信 息分别输入到文本摘要层, 采用改 进TextRank方式, 利用实体名的覆盖率、 句子位置以及句子相似度对句子权重进行调整, 根 据得到的最 终句子权重确定头实体和尾实体的描述摘要, 将头实体和尾实体的描述摘要与 头实体与尾实体之间的关系文本进行拼接, 得到 输入序列; 将所述输入序列输入到序列编码层中, 采用ALBERT编码器对所述输入序列进行特征提 取和特征编码, 得到具有上 下位语义特 征的特征矩阵; 将所述特征矩阵输入到特征增强层, 采用平均池化层和BiGRU层对所述特征矩阵进行 特征增强, 得到增强特 征矩阵; 将所述增强特征矩阵输入到所述多任务微调层中, 以链接预测任务为预测任务、 将关 系预测任务和相关性排序任务作为训练任务, 确定三元组中缺失的另一实体, 完成智能问 答系统知识图谱补全 任务。 2.根据权利要求1所述的方法, 其特征在于, 将样本集中三元组 的头实体和尾实体的文 本描述信息 分别输入到文本摘要层, 采用改进T extRank方式, 利用实体名的覆盖率、 句子位 置以及句子相似度对句子权重进 行调整, 根据得到的最 终句子权重确定头实体和尾实体的 描述摘要, 将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接, 得 到输入序列, 包括: 对头实体的文本描述进行分词预处 理, 得到头实体的多个句子; 将所述头实体的多个句子作为图顶点, 并计算不同图顶点之间的相似度, 得到相似度 矩阵; 根据所述图顶点和所述相似度矩阵, 构造TextRan k图模型; 根据所述相似度矩阵和所述TextRan k图模型, 得到句子 权重矩阵; 根据每个句子包 含的实体名数量、 句子的单词数, 得到句子的实体覆盖率矩阵; 根据原本实体描述文本段所包含的句子数量和当前句子在段落中的索引, 得到句子位 置矩阵; 对所述实体覆盖率矩阵和所述句子位置矩阵进行归一 化处理; 根据预设权重值、 归一化处理后的实体覆盖率矩阵和句子位置矩阵对所述句子权重矩 阵进行修 正, 得到最终句子 权重矩阵; 根据所述最终句子权重矩阵对句子进行排序, 权重较高的预设数量个句子作为头实体 的摘要描述; 对尾实体的文本描述信息 输入到文本摘要层中, 得到尾实体的摘要 描述; 将所述头实体的摘要描述、 所述尾实体的摘要描述以及头实体与尾实体之间的关系 文 本进行拼接, 得到 输入序列。 3.根据权利 要求2所述的方法, 其特征在于, 根据所述相似度矩阵和所述TextRank图模 型, 得到句子 权重矩阵, 包括:权 利 要 求 书 1/4 页 2 CN 115422369 A 2设置每个句子的权 重初始值 为相同的数, 其中所有句子的权 重之和为1; 根据每个句子的权重初始值、 所述相似度矩阵以及所述TextRank图模型, 得到句子权 重矩阵; 句子 权重计算公式为: 其中, TR(Xi)为第i句的权重值, wji∈SD为第j个顶点到第i个顶点之间的相似度, SD为 相似度矩阵; In(X)表示指向句子X的句子集合, Out(X)为句子X指向的句子集合, d为阻尼系 数。 4.根据权利要求2所述的方法, 其特征在于, 将所述头实体的多个句子作为图顶点, 并 计算不同图顶点之间的相似度, 得到相似度矩阵, 步骤中不同图顶点之间的相似度的表达 式为: 其中, wab为句子a对应的顶点与句子b对应的顶点 之间的相似度, Seqa和Seqb分别代表句 子a和句子b, |Seqa|、 |Seqb|分别为句子a和句子b包含的单词数, tk为句子a和句子b中重叠 的词汇。 5.根据权利要求2所述的方法, 其特征在于, 根据预设权重值、 归一化处理后的实体覆 盖率矩阵和句 子位置矩阵对所述句 子权重矩阵进行修正, 得到最终句 子权重矩阵, 得到最 终句子权重矩阵, 步骤中所述 最终句子 权重矩阵的表达式为: B=Bf·( α We+β Wp)T 其中, B为最终句子权重矩阵, B的维度为1 ×n, Bf为句子权重矩阵, ·表示矩阵点乘, α, β 分别为两种特征矩阵的权重, 且α +β =1, We为归一化的实体覆盖率矩阵, Wp为归一化的句子 位置矩阵。 6.根据权利要求1所述的方法, 其特征在于, 特征增强层包括: 平均池化层和BiGRU层; BiGRU是在隐层同时有一个正向GRU和反向GRU, 所述正向GRU用于捕获上文的特征信息, 所 述反向GRU用于捕获下文的特 征信息; 将所述特征矩阵输入到特征增强层, 采用平均池化层和BiGRU层对所述特征矩阵进行 特征增强, 得到增强特 征矩阵, 包括: 将所述特 征矩阵输入到特 征增强层的平均池化层中, 得到池化特 征矩阵; 将所述池化特征矩阵输入到所述BiGRU层中, 利用正向GRU捕获上文的特征信息, 利用 反向GRU捕获下文的特 征信息, 得到增强特 征矩阵。 7.根据权利要求1所述的方法, 其特征在于, 链接预测任务包括全连接层和Softmax激 活函数、 关系预测任务包括全连接层和Softmax激活函数; 相关性排序任务包括全连接层和 sigmoid激活函数; 将所述增强特征矩阵输入到所述多任务微调层中, 以链接预测任务为预测任务、 将关 系预测任务和相关性排序任务作为训练任务, 确定三元组中缺失的另一实体, 完成智能问 答系统的问答任务, 包括:权 利 要 求 书 2/4 页 3 CN 115422369 A 3

.PDF文档 专利 基于改进TextRank的知识图谱补全方法和装置

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于改进TextRank的知识图谱补全方法和装置 第 1 页 专利 基于改进TextRank的知识图谱补全方法和装置 第 2 页 专利 基于改进TextRank的知识图谱补全方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:42:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。