行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210173183.1 (22)申请日 2022.02.24 (71)申请人 南通海赛未来数字科技有限公司 地址 226000 江苏省南 通市海门市经济技 术开发区香港路588号謇公湖科创中 心10号楼 (72)发明人 胡静远 刘洪强 沈翀  (74)专利代理 机构 南通云创慧泉专利代理事务 所(普通合伙) 32585 专利代理师 邵永永 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/28(2019.01) G06F 16/2452(2019.01) G06F 16/23(2019.01) (54)发明名称 一种面向多领域的细粒度知识挖掘方法 (57)摘要 本发明公开了一种面向多领域的细粒度知 识挖掘方法, 方法包括: 设置开放领域数据库, 开 放领域数据库包括数据输入模块、 数据获取模 块、 数据分类模块, 开放领域数据库设有自动扩 充模块, 通过数据获取模块, 自动获取数据输入 模块和自动扩充模块中的数据及词语, 根据获取 到的数据及词语, 与所要查询的数据相匹配, 并 建立第二线索关系模块, 将关联模块出现频次程 度高的数据输入模块和自动扩充模块中的数据 及词语作为所要查询的数据的细粒度知识并抽 取; 本发明的优点是: 通过与开源的数据库端口 连接, 达到了扩展传统领域数据库的效果, 能够 快速准确地抽取开放领域中多种类型细粒度知 识, 大大降低人工及设备成本 。 权利要求书1页 说明书4页 附图1页 CN 114647677 A 2022.06.21 CN 114647677 A 1.一种面向多领域的细粒度知识挖掘方法, 其特征在于: 所述方法包括: 设置开放领域 数据库, 所述开放领域数据库包括数据输入模块、 数据获取模块、 数据分类模块, 所述数据 获取模块与数据分类模块之 间具有第一线索关系模块, 所述开放领域数据库设有自动扩充 模块, 所述自动扩充模块将新进入的数据通过数据分类模块传递至开放领域数据库, 通过 数据获取模块, 自动获取数据输入模块和自动扩充模块中的数据及词语, 根据获取到的数 据及词语, 与所要查询的数据相匹配, 并建立第二线索关系模块, 通过比对第一线索关系模 块和第二线索关系模块, 找到关联两个线索关系模块的关联模块, 对关联模块进行特征提 取, 确定有关于分类的第一线索关系模块的分类准确与第二线索关系模块匹配程度 的影 响, 将关联模块出现频次程度高的数据输入模块和自动扩充模块中的数据及词语作为所要 查询的数据的细粒度知识并抽取。 2.根据权利要求1所述的一种面向多领域的细粒度知识挖掘方法, 其特征在于: 所述设 置开放领域数据库包括: 数据输入模块将输入数据与输入领域进行归集, 与数据分类模块 进行第三线索关系的比对并自动归纳删减, 形成数据及词语分类表, 所述数据及词语分类 表与有关于分类的第一线索关系模块的分类准确程度进行比对。 3.根据权利要求1所述的一种面向多领域的细粒度知识挖掘方法, 其特征在于: 所述自 动扩充模块将新进入的数据类型为A, 所述数据输入模块的数据类型为B, 比较数据类型A与 数据类型B确定扩充当量即DIFF(A/B), 所述要查询的数据的类型集合为C, 通过比对扩充当 量与类型集 合C的差异程度, 确定第二线索关系为M=[ DIFF(A/B)/C]。 4.根据权利要求1所述的一种面向多领域的细粒度知识挖掘方法, 其特征在于: 所述数 据获取模块的数据类型为D, 即D=ALL(A  and B), 所述数据分类模块的分类块设定为P, 则 确定第一线索关系为 N=CLA[AL L(A and B)/P]。 5.根据权利要求3或4所述的一种面向多领域的细粒度知识挖掘方法, 其特征在于: 通 过比对第一线索关系模块和第二线索关系模块, 找到 关联两个线索关系模块的关联模块 RE (M_N), 对关联模块进行 特征提取即EXT[RE(M_N)]。 6.根据权利要求5所述的一种面向多领域的细粒度知识挖掘方法, 其特征在于: 所述关 联模块特征提取即EXT[RE(M_N)后, 设定数据及词语的长度为L, 将数据及词语按照长度L≤ 2、 2<L≤5、 L>5进行分割, 分别组成集合S, 将集合S输入至EXT[RE(M_N)]统计出现频次程 度高的数据作为细粒度知识并抽取。 7.根据权利要求1所述的一种面向多领域的细粒度知识挖掘方法, 其特征在于: 所述开 放领域数据库与开源领域词表相连接, 所述开源领域词表设有与自动扩充模块对接的端 口, 用于将开源领域词表内的数据进行自动扩展与更新。 8.根据权利要求3所述的一种面向多领域的细粒度知识挖掘方法, 其特征在于: 所述扩 充当量设预先设定多个阈值, 当扩充当量即DIFF(A/B)大于设定的最大阈值时, 提示停止运 行并调整A、 B类数据类型。 9.根据权利要求3或4所述的一种面向多领域的细粒度知识挖掘方法, 其特征在于: P设 定为多个分类块即P=(PART1、 PART2、 ……PARTn), 当数据输入模块的数据类型B不存在于 分类块P中时, 通过自动扩充模块将新的分类添加至分类块P中。权 利 要 求 书 1/1 页 2 CN 114647677 A 2一种面向多领域 的细粒度知识 挖掘方法 技术领域 [0001]本发明属于数据处理技术领域, 具体涉及一种面向多领域的细粒度知识挖掘方 法。 背景技术 [0002]细粒度知识抽取是指将 各业务领域中的知识对象加以细分, 从而得到更科学合理 的知识对 象模型, 也就是首先划分出很多知识对 象, 在对知识对 象进行足够细分后再根据 需要进行运算检索, 直至抽取 得到所需要的数据的方法。 [0003]细粒度是数据库名词, 计算机领域中细粒度指系统内存扩展增量的最小值, 细粒 度问题是设计数据仓库的一个最重要方面, 是指数据仓库的数据单位中保存数据的细化或 综合程度的级别, 细化 程度越高, 粒度级就越小; 相反, 细化 程度越低, 粒度级就越大。 [0004]在早期建立的操作型系统中, 粒度是用于访问授权的。 当详细的数据被更新时, 几 乎总是把它存放在最低粒度级 上。 但在数据仓库 环境中, 对粒度不作假设, 细粒度运算是一 种新兴的信息处理运算模型, 它 涉及到复杂信息实体的处理, 包括数据的抽象化还有从信 息推导知识的过程, 一般来说, 信息粒通常是数值层面上 的实体集合, 它们以相似性、 功能 的近似性、 不可辨别性及一 致性等指标来进行整合。 [0005]对于开放领域, 细粒度运算只有较多的理论观点而尚未形成一套完整的方法, 即 只存在于通过不同的分辨率或尺度, 对数据中出现的知识进行认知以及探索及抽取, 并未 实现在对开 放的各领域进行的进一 步分类划分, 无法 保证知识抽取 数值的准确性。 发明内容 [0006]本发明的目的在于克服上述局限, 提供一种解决了细粒度知识抽取系统对相关领 域知识依赖性 强, 或需为不同领域构建大规模标注语料库, 设备及人工成本高昂, 且无法自 动识别扩展或扩展性能低的技术问题, 通过与开源的数据库端口连接, 达到了扩展传统领 域数据库的效果, 且在缺 乏原始数据及语句的前提下, 能够快速准确 地抽取多领域中多种 类型细粒度知识, 大 大降低人工及设备成本 。 [0007]本发明的目的通过以下技术方案来实现: 一种面向多领域的细粒度知识挖掘方 法, 方法包括: 设置开放领域数据库, 开放领域数据库包括数据输入模块、 数据获取模块、 数 据分类模块, 数据获取模块与数据分类模块之间具有第一线索关系模块, 开放领域数据库 设有自动扩充模块, 自动扩充模块将新进入的数据通过数据分类模块传递至开放领域数据 库, 通过数据获取模块, 自动获取数据输入模块和自动扩充模块中的数据及词语, 根据获取 到的数据及词语, 与所要查询的数据相匹配, 并建立第二线索关系模块, 通过比对第一线索 关系模块和第二线索关系模块, 找到关联两个线索关系模块的关联模块, 对关联模块进行 特征提取, 确定有关于 分类的第一线索关系模块的分类准确与第二线索关系模块匹配程度 的影响, 将关联模块出现频次程度高的数据输入模块和自动扩充模块中的数据及词语作为 所要查询的数据的细粒度知识并抽取。说 明 书 1/4 页 3 CN 114647677 A 3

.PDF文档 专利 一种面向多领域的细粒度知识挖掘方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向多领域的细粒度知识挖掘方法 第 1 页 专利 一种面向多领域的细粒度知识挖掘方法 第 2 页 专利 一种面向多领域的细粒度知识挖掘方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:17:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。