(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221097313 3.1
(22)申请日 2022.08.15
(71)申请人 南京邮电大 学
地址 210023 江苏省南京市栖霞区亚 东新
城文苑路9号
(72)发明人 蔡超翔 陈景强 王凯
(74)专利代理 机构 南京正联知识产权代理有限
公司 32243
专利代理师 姜梦翔
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06F 16/901(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于引文、 图与结构的科技文 献差异生
成方法
(57)摘要
本发明所述的一种基于引文、 图与结构的科
技文献差异生 成方法, 步骤为: 第一步, 对科技文
献引文进行功能标注; 第二步, 收集对比引文以
及对应的科技文献; 第三步, 基于对比图方法计
算句子关系得分; 第四步, 结合结构理论计算句
子结构得分; 第五步, 对句子进行排序, 抽取句子
构成差异内容。 本方法采用简单高效的无监督方
法, 不依赖大规模训练数据, 自动生成科技文献
的差异内容。
权利要求书2页 说明书6页 附图2页
CN 115329065 A
2022.11.11
CN 115329065 A
1.一种基于引文、 图与结构的科技文献差异生成方法, 其特 征在于, 所述方法步骤为:
步骤1: 整合引文功能标注方法, 设计针对对比引文敏感的引文功能标注方法, 对文献
中的引文 进行功能标注;
步骤2: 从所 标注的引文中筛 选出对比引文, 并收集与之对应的文献;
步骤3: 构建文献集 合的对比图, 并对文献中的句子关系得分进行计算;
步骤4: 结合结构理论对文献中的句子结构得分进行计算;
步骤5: 综合考虑文献中的句子关系得分和句子结构得分来对句子进行排序和抽取, 最
终构成目标差异内容。
2.根据权利要求1所述的一种基于引文、 图与结构的科技文献差异生成方法, 其特征在
于, 步骤1中, 整合经典的引文功能标注方法, 将功能类别重新分类、 映射与定义, 并将原属
于其他功能类别中的有一定程度对比线索的引文重新划分到对比类别中, 进而提出了对捕
捉对比引文敏感的引文功能标注方法。
3.根据权利要求1所述的一种基于引文、 图与结构的科技文献差异生成方法, 其特征在
于, 步骤2中, 仅 从标注的引文集合中收集对比引文, 并收集与所述对比引文对应的施引文
献和被引文献, 构成可比较的文献集 合。
4.根据权利要求1所述的一种基于引文、 图与结构的科技文献差异生成方法, 其特征在
于, 步骤3中, 构建文献集 合的对比图, 并对文献中的句子关系得分进行计算的具体步骤为:
步骤3‑1: 构建文献集合的对比图, 该对比图包含了文献或引文 的子图、 句子的节点以
及三种句 子间关系的边, 其中文献或引文的子图表示文献或引文内容本身, 句 子的节点表
示文献或引文中的句子, 三种句子间关系的边表 示三种句子间的关系: 文献内句子 关系、 文
献间句子关系和引文相关句子 关系; 文献内句子关系考虑文献内的句子来捕捉文献内的突
出性; 文献间句 子关系考虑文献间的句 子来捕捉文献间的差异性; 引文相关句 子关系考虑
文献句子与引文的相似性 来捕捉文献间的相关性。
步骤3‑2: 基于构建的文献集合的对比图, 采用图方法计算句子关系得分; 句子包含三
种关系得分, 获取句子向量, 再计算相似度用以衡量 不同关系得分;
文献内得分: 文献中的句子用SS表示, 下标s表示在文献中的位置; 记位于其前面的句子
集合为Pre, Spre表示集合Pre中的句子, 下标pre表示在Pre中的位置; 记位于其后面的句子
集合为Aft, Saft表示集合Aft中的句子, 下标aft表示在Aft中的位置; 用 α与β 两个系数表示
计算与后、 前句子相似度时的系数, 且α, β ∈[0,1]; 句子SS的文献内突出性得分如下式子所
示;
文献间得分: 施引文献是引文出现的文献, 被引文献是引文引用的文献; 施引文献CP中
的句子用Scp表示, 下标cp表示句子在施引文献中的位置; 被引文献集合RPs中的句子用Srp
表示, 下标rp表示句子在被引文献集合中的位置; 句子Scp的文献间差异性得分如下式子所
示;
引文相关得分: 文献中的句子用Sp表示, 下标p表示在文献中的位置; 引文CIT中的句子
用Scit表示, 下标cit表示在引文中的位置; 句子Sp的引文相关共同性得分如下式子所示;权 利 要 求 书 1/2 页
2
CN 115329065 A
25.根据权利要求1所述的一种基于引文、 图与结构的科技文献差异生成方法, 其特征在
于, 步骤4中, 引入了跨文档与修辞两种 结构理论,将句子语义结构拓展至多个维度进行分
析; 其中跨文档结构理论针对文献间的句 子结构关系, 修辞结构理论针对文献内的句 子结
构关系; 首先为每种 结构关系进行分值预设, 对比的跨文档或修辞结构关系 是本发明重点
关注的句 子结构类型, 则给予高分; 之后分别对文献中句 子的跨文档结构类型与修辞结构
类型进行分类, 根据所得结构关系类别并参照其对应的预设分值得到每个句子的两种结构
理论得分。
6.根据权利要求1所述的一种基于引文、 图与结构的科技文献差异生成方法, 其特征在
于, 在步骤5中, 综合考虑各文献中句 子的关系 得分和结构得分, 并按分值由高到低依次对
句子进行排序, 之后从各文献中按照预设的句子数以及分值依次从上往下选择句子最终构
成差异内容。权 利 要 求 书 2/2 页
3
CN 115329065 A
3
专利 一种基于引文、图与结构的科技文献差异生成方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:38:38上传分享