(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211047113.8
(22)申请日 2022.08.30
(71)申请人 陕西智引科技有限公司
地址 710000 陕西省西安市西咸 新区沣东
新城能源金贸区西咸金融港4-A座20
楼F2004室013号
(72)发明人 冯炫 马林聪 曹豪 潘冬
苗思宇
(74)专利代理 机构 济南誉琨知识产权代理事务
所(普通合伙) 37278
专利代理师 庞庆芳
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/33(2019.01)
G06F 16/36(2019.01)
(54)发明名称
基于语义的数字档案信息关联检索方法
(57)摘要
本发明属于信息检索应用技术领域, 尤其涉
及一种基于语义的数字档案信息关联检索方法。
本发明通过在传统关键词检索 的基础上增加了
语义相似度检索, 使检索范围更加的广泛、 全面,
从而使提供的资料全面、 准确, 从而解决现有档
案管理中所存在的技术问题, 同时, 本发明操作
方便、 实验效果显著, 适 合大规模推广使用。
权利要求书2页 说明书4页 附图2页
CN 115544225 A
2022.12.30
CN 115544225 A
1.一种基于语义的数字档案信息关联检索方法, 其特 征在于, 包括以下步骤:
a、 首先对档案信息资源进行 数字化处 理;
b、 将a步骤数字化处理后的档案信息资源根据档案的事件、 单位等关键元素进行元素
分类, 正确抽取与档案本体的相关知识和确定公认的基础词汇, 并给出知识之间的语义关
系构建RDF三元组;
c、 对b步骤构建的RDF三元组进行同义词扩展, 并将扩展之后的知识存储在对应三元组
中;
d、 然后根据事件主题或事件主题延伸出的节点实现不同档案信息资源之间的关键词
关联匹配, 形成语义知识图谱 模型;
e、 然后, 读取用户检索时输入的关键字信 息, 利用d步骤创建的语义知识图谱模型通过
语义分析和检索将获取到的资源进行排序并输出;
f、 将最终查询到的检索结果返回给用户;
其中, 所述e步骤中, 语义分析和检索包括直接匹配检索和语义相似度计算匹配检索,
其中, 所述语义相似度计算匹配检索通过计算得到与关键字最为匹配的数据内容以及根据
检索到的关键字主体查询对应的关联信息内容, 整体进行相关性排序并输出, 所述语义相
似度计算公式为:
simS(m,n)=α *simA(m,n)+β *simC(m,n)+γ*simL(m,n)
其中, m和n为两个不同的档案, α、 β 、 γ为取值范围在0~1之间的调节参数, simA(m,n)为
档案m和n之间所包含的属性相关性, simC(m,n)为档案m和n之间的最大语义余弦距离, simL
(m,n)为档案m和n之间的路径 距离。
2.根据权利要求1所述的基于语义的数字档案信息关联检索方法, 其特征在于, 所述e
步骤中, simA(m,n)的计算公式为:
其中, f(m∩n)为档案m和n之间相同属性的相似度, f(m ‑n)为档案m包含但档案n不包含
的属性数量, f(n ‑m)为档案n包 含但档案m不包 含的属性数量。
3.根据权利要求1所述的基于语义的数字档案信息关联检索方法, 其特征在于, 所述e
步骤中, simC(m,n)的计算公式为:
simC(m,n)=cos(m,n)。
4.根据权利要求3所述的基于语义的数字档案信息关联检索方法, 其特征在于, 所述
simL(m,n)的计算公式为:
其中, length(m,n)为档案m跳转到档案n之间的路径 距离参数,
为调节参数, 取值 为1。
5.根据权利要求4所述的基于语义的数字档 案信息关联检索方法, 其特征在于, 所述语
义知识图谱模型还包括档案知识抽取模块以及知识存储模块, 其中, 所述档案知识抽取模
块包括档案的原子信息元 素以及档案的RDF三元组抽取。
6.根据权利要求5所述的基于语义的数字档 案信息关联检索方法, 其特征在于, 所述知权 利 要 求 书 1/2 页
2
CN 115544225 A
2识存储模块采用Neo 4j图数据库对语义知识图谱 模型进行存 储。权 利 要 求 书 2/2 页
3
CN 115544225 A
3
专利 基于语义的数字档案信息关联检索方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:43:05上传分享