行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211152697.5 (22)申请日 2022.09.21 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 申请人 建信金融科技有限责任公司 (72)发明人 张岱彬 尹泓钦 王豪 李若  刘伦 陈力  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 蔡维华 黄健 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 16/31(2019.01) G06F 16/2457(2019.01)G06F 40/289(2020.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称 数据检索方法、 装置、 设备及存 储介质 (57)摘要 本申请实施例提供一种数据检索方法、 装 置、 设备及存储介质, 涉及数据分析技术领域。 该 方法包括: 响应于获取到的检索请求, 确定对应 目标检索词和请求对象; 基于请求对象对应的对 象检索词库和预先构建的业务系统检索词库, 分 别对目标检索词进行分词处理, 基于业务系统检 索词库对应的分词处理结果和预先设置的优先 级标签, 建立对应的检索索引; 基于请求对象对 应的业务系统、 基于对象检索词库得到的分词结 果和检索索引, 得到检索结果。 本申请实施例解 决了现有技术中搜索引擎在搜索多元化数据时, 搜索结果无法满足用户期望的问题。 权利要求书3页 说明书15页 附图4页 CN 115495589 A 2022.12.20 CN 115495589 A 1.一种数据检索方法, 其特 征在于, 所述数据检索方法包括: 响应于获取到的检索请求, 确定对应目标检索词和请求对象; 基于所述请求对象对应的对象检索词库和预先构建的业务系统检索词库, 分别对所述 目标检索词进 行分词处理, 所述请求对象对应的对象检索词库基于请求对象的检索历史构 建, 所述业务系统检索词库基于 本地业务系统中的数据和外源数据库中的数据构建; 基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签, 建立对应的检 索索引; 基于所述请求对象对应的业务系统、 基于对象检索词库得到的分词结果和所述检索索 引, 得到检索结果。 2.根据权利要求1所述的数据检索方法, 其特征在于, 所述业务系统检索词库通过如下 方式得到: 获取本地 业务系统数据和采集的外源数据库中的外源性数据; 基于所述本地业务系统数据和外源性数据中的结构化数据, 得到对应的结构化数据副 本; 基于所述本地业务系统数据和外源性数据中的非结构化数据, 得到对应的实体图谱, 所述实体图谱用于表示本地 业务系统数据与外源性数据间的关联关系; 基于所述本地业务系统数据和外源性数据的具体来源, 对所述结构化数据和非结构化 数据分别添加对应的来源标签; 基于非结构化数据的文件格式, 对所述非结构化数据添加格式标签, 并基于所述结构 化数据副本、 实体图谱、 来源标签和格式标签, 得到所述 业务系统检索词库。 3.根据权利要求2所述的数据检索方法, 其特征在于, 所述基于所述本地业务系统数据 和外源性数据中的结构化数据, 得到对应的结构化数据副本, 包括: 建立所述结构化数据与所述本地 业务系统数据对应的数据库的主键关联; 基于所述主键关联, 对所述外源性数据进行整合; 将所述整合结果和基于主键关联的本地业务系统数据结合, 生成所述结构化数据副 本。 4.根据权利要求2所述的数据检索方法, 其特征在于, 所述基于所述本地业务系统数据 和外源性数据中的非结构化数据, 得到对应的实体图谱, 包括: 提取所述非结构化数据的目标信息, 所述目标信息包括实体、 实体属性和分类标签; 基于所述目标信息, 通过相关性分析, 得到所述非结构化数据间的匹配度; 抽取所述目标信息中的实体对应词条, 并在所述词条 上标注所述匹配度; 基于所述匹配度, 建立所述目标信息中的实体对应的图数据库, 并生成所述实体图谱。 5.根据权利要求4所述的数据检索方法, 其特征在于, 所述基于所述本地业务系统数据 和外源性数据的具体来源, 对所述结构化数据和非结构化数据分别添加对应的来源标签, 包括: 在所述结构化数据副本中添加所述结构化数据对应的来源性标注; 在同一结构化数据副本中的子数据中, 根据数据来源设置对应的优先级标签; 在所述非结构化数据的图数据库中, 添加每 个实体对应的来源标签。 6.根据权利要求2至5中任一项所述的数据检索方法, 其特征在于, 所述外源性数据通权 利 要 求 书 1/3 页 2 CN 115495589 A 2过如下方式采集得到: 若所述外源性数据为结构化数据, 实时监 听所述外源性数据对应外源业务系统 的外源 数据库的数据变化; 根据数据变化对应的数据内容的类型, 采集外源性数据中的结构化数据; 若所述外源性数据为非结构化数据, 获取 所述外源业 务系统的推送请求; 基于所述推送请求, 获取 所述外源业 务系统对应的外源性数据。 7.根据权利要求6所述的数据检索方法, 其特征在于, 所述根据 数据变化对应的数据内 容的类型, 采集外源性数据中的结构化数据, 包括: 若所述数据内容为单表数据变化, 向外源业务系统发送拉取任务, 以提取数据信息的 单表; 若所述数据内容为持续增量变更信息, 向外源业务系统发送订阅任务, 以通过订阅增 量持续获取实时的增量变更信息; 若所述数据内容 为未采集过的存量数据, 全量拉取 所述外源性数据信息 。 8.根据权利要求6所述的数据检索方法, 其特征在于, 所述基于所述推送请求, 获取所 述外源性数据, 包括: 基于设定传输方式采集外源性数据中的非结构化数据至 本地存储位置; 通过设定采集方式从所述本地存 储位置的非结构化数据中抽取 结构化的数据信息 。 9.根据权利要求6所述的数据检索方法, 其特征在于, 所述基于所述推送请求, 获取所 述外源性数据之后, 还 包括: 对获取到的外源性数据进行合法性校验; 对通过合法性校验的外源性数据中的业 务敏感数据进行脱敏处 理; 基于脱敏处理后外源性数据对应的外源业务系统, 将所述外源性数据保存至对应的数 据库分库或分表中。 10.根据权利要求2至5中任一项所述的数据检索方法, 其特征在于, 所述基于业务系统 检索词库对应的分词处 理结果和预 先设置的优先级标签, 建立对应的检索 索引, 包括: 基于所述 业务系统检索词库对应的分词处 理结果, 对库存数据进行倒排索引; 基于所述库存数据中结构化数据副本包含的优先级标签和所述业务系统检索词库对 应的分词处 理结果, 得到分词域优先级; 基于所述倒排索引和所述分词域优先级, 建立所述检索 索引。 11.根据权利要求2至5中任一项所述的数据检索方法, 其特征在于, 所述基于所述请求 对象对应的业务系统、 基于对象检索词 库得到的分词结果和所述检索索引, 得到检索结果, 包括: 基于所述对象检索词库得到的分词结果, 确定所述请求对象的检索偏好; 确定所述对象对应业 务系统中的数据为主检索数据; 基于所述检索偏好和所述实体图谱, 确定与所述对象对应业务系统关联的外源业务系 统中的数据为相关检索数据; 基于所述检索索引, 对所述主检索数据库和所述相关检索数据库进行检索, 并对所述 主检索数据库和所述相关检索数据库对应的检索得到的数据分别进行检索展示, 得到所述 检索结果。权 利 要 求 书 2/3 页 3 CN 115495589 A 3

.PDF文档 专利 数据检索方法、装置、设备及存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据检索方法、装置、设备及存储介质 第 1 页 专利 数据检索方法、装置、设备及存储介质 第 2 页 专利 数据检索方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:43:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。