行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211221701.9 (22)申请日 2022.10.08 (71)申请人 中科 (厦门) 数据智能研究院 地址 361000 福建省厦门市软件园三期凤 歧路208- 3号 (72)发明人 庄福振 张富威 安竹林 张钊  徐勇军  (74)专利代理 机构 安徽善安知识产权代理事务 所(特殊普通 合伙) 3420 0 专利代理师 刘勇 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 5/02(2006.01) (54)发明名称 基于k均值聚类算法缓解知识图谱稀 疏问题 的知识表示学习方法 (57)摘要 本发明公开了一种基于k均值聚类算法缓解 知识图谱稀 疏的知识表示学习方法, 主要包括四 个步骤: 步骤一, 选择一个现有的知识图谱表示 学习模型; 步骤二, 预训练现有模型; 步骤三, k均 值聚类实体和关系; 步骤四, 融合聚类信息继续 训练模型; 本发明利用k均值聚类算法将稀疏的 实体和语义上相似的高频 实体聚成一簇, 增强稀 疏实体的表 示能力, 缓解知识图谱表 示学习中的 数据稀疏问题, 从而提升知识图谱中实体和关系 学习的效果。 权利要求书2页 说明书4页 附图1页 CN 115357730 A 2022.11.18 CN 115357730 A 1.基于k均值聚类算法缓解知识图谱 稀疏的知识 表示学习方法, 主 要包括四个步骤: 步骤一, 选择一个现有的知识图谱表示学习模型; 步骤二, 预训练现有模型; 步骤三, k均值聚类实体和关系; 步骤四, 融合聚类信息继续训练模型。 2.根据取权利要求1所述的基于k均值聚类算法缓解知识图谱稀疏的知识表示学习方 法, 其特征在于: 所述步骤二中, 预先通过现有的数据集训练向量的一个基础表示, 使得语 义相似实体或关系在空间上的表示相近。 在此过程中使用全量的知识图谱数据集, 以t 提高 链接预测任务的准确性作为最 终的目标进 行训练。 这一步训练1至10轮皆可, 无需等到模型 完全收敛, 然后将训练好的实体和关系向量保存下来。 3.根据权利要求1所述的基于k均值 聚类算法缓解知识图谱稀疏的知识表示学习方法, 其特征在于: 所述步骤三中, 预将数据分为k组, 则随机选取k个对象作为初始的聚类中心, 然后计算每个对象与各个种子聚类中心之 间的距离, 把每个对象分配给距离它最近的聚类 中心。 在这里我们 首先根据数据集的实体和关系 数量设定聚类类别数, 具体的类别数目计 算如下: 其中, n是实体或者关系的总数, N是最终聚类的类别数。 在确定好聚类数目之后, 直接 通过k均值聚类算法得到最终的聚类结果。 4.根据权利要求1所述的基于k均值 聚类算法缓解知识图谱稀疏的知识表示学习方法, 其特征在于: 所述步骤三中, 聚类的到结果以后, 需要额外的设定一个向量用来表示一个聚 类簇, 一个簇里面的实体或者关系共享该向量, 这时候需要重新定义一个实体或者关系的 向量表示, 如下: h′=h+αehc, 0<αe<1 t′=t+αetc, 0<αe<1 r′=r+αrrc, 0<αr<1 其中, h、 r、 t分别是头实体、 关系、 尾实体的原始向量表示, hc, rc, tc分别是头实体、 关 系、 尾实体所在聚类簇的向量表示, αe, αr分别是吸收实体或者关系聚类的权重, h ′, r′, t′分 别是融合聚类信息后的头实体、 关系 、 尾实体的向量表示。 5.根据权利要求1所述的基于k均值 聚类算法缓解知识图谱稀疏的知识表示学习方法, 其特征在于: 所述步骤四中, 在构建完新的表示以后, 将这个向量表示作为 实体和关系的向 量进行训练, 在训练的过程中保持同一个簇中的实体和关系有共享的表达, 从而将一些出 现频次低的稀疏实体的表示拉进到出现频次高的高频实体。 6.根据权利要求1所述的基于k均值 聚类算法缓解知识图谱稀疏的知识表示学习方法, 其特征在于: 所述步骤一中, 聚类运用到知识图谱表示学习中, 需要 借助现有的知识表示学权 利 要 求 书 1/2 页 2 CN 115357730 A 2习模型作为基础载体。权 利 要 求 书 2/2 页 3 CN 115357730 A 3

.PDF文档 专利 基于k均值聚类算法缓解知识图谱稀疏问题的知识表示学习方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于k均值聚类算法缓解知识图谱稀疏问题的知识表示学习方法 第 1 页 专利 基于k均值聚类算法缓解知识图谱稀疏问题的知识表示学习方法 第 2 页 专利 基于k均值聚类算法缓解知识图谱稀疏问题的知识表示学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:42:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。