行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211272067.1 (22)申请日 2022.10.18 (71)申请人 联仁健康医疗大 数据科技股份有限 公司 地址 200131 上海市浦东 新区中国 (上海) 自由贸易试验区川和路5 5弄3号 (72)发明人 贾晓鹏 张俊洋 黄皓 朱靖源  李天一  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 康欢欢 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/22(2019.01) G06F 16/28(2019.01)G16H 10/60(2018.01) (54)发明名称 一种数据内容质控方法、 装置、 设备、 介质及 产品 (57)摘要 本发明公开了一种数据内容质控方法、 装 置、 设备、 介质及产品。 基于接收到的内容质控批 量数据, 确定至少一个目标质控字段; 对于各目 标质控字段, 调取与当前目标质控字段相对应的 目标质控数据; 将目标质控数据输入至预先训练 好的字段分类模 型中, 得到与目标质控数据相对 应的概率矩阵; 基于概率矩阵和目标质控字段, 确定目标质控字段下目标质控数据的质控结果, 解决了数据质控 过程中人工判断准确率低、 效率 低的技术问题, 提高了数据质控的精度, 提升了 数据质控的效率, 从而便于优化问题数据以提升 数据内容的质量。 权利要求书2页 说明书11页 附图3页 CN 115543985 A 2022.12.30 CN 115543985 A 1.一种数据内容质控方法, 其特 征在于, 包括: 基于接收到的内容质控批量数据, 确定至少一个目标质控字段; 其中, 所述内容质控批 量数据中包括多个待质控字段以及相应的多个待质控数据; 对于各目标质控字段, 调取与当前目标质控字段相对应的目标质控数据; 将所述目标质控数据输入至预先训练好的字段分类模型中, 得到与 所述目标质控数据 相对应的概率矩阵; 其中, 所述概率矩阵中每个元素值用于表征在各目标质控数据在相应 预设质控字段 下所对应的概 率值; 基于所述概率矩阵和所述目标质控字段, 确定所述目标质控字段下所述目标质控数据 的质控结果。 2.根据权利要求1所述的方法, 其特征在于, 所述调取与当前目标质控字段相对应的目 标质控数据, 包括: 根据预先设置的目标数据量, 对所述当前目标质控字段下的多个待质控数据进行抽样 处理, 以得到所述目标质控数据。 3.根据权利要求1所述的方法, 其特征在于, 所述将所述目标质控数据输入至预先训练 好的字段分类模型中, 得到与所述目标质控数据相对应的概 率矩阵, 包括: 将与所述目标质控数据相对应的目标向量输入至所述字段分类模型中, 得到所述目标 质控数据中各子数据在相应预设质控字段 下所对应的概 率值; 基于预先设置的质控字段排布顺序和相应的概 率值, 确定所述 概率矩阵; 其中, 所述 概率矩阵的列对应的为所述预设质控字段。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述概率矩阵和所述目标质控字 段, 确定所述目标质控字段 下所述目标质控数据的质控结果, 包括: 根据所述 概率矩阵中同一列所对应概 率值, 确定列概 率均值; 基于各列概 率均值, 得到基于所述字段分类模型确定的待匹配质控字段; 基于所述待匹配质控字段和所述目标质控字段, 确定所述质控结果。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述待匹配质控字段和所述目标 质控字段, 确定所述质控结果, 包括: 若所述待匹配质控字段与所述目标质控字段相对应, 则确定所述质控结果 为通过; 若所述待匹配质控字段与所述目标质控字段不同, 则确定所述质控结果为不通过, 并 反馈错误提示。 6.一种数据内容质控 装置, 其特 征在于, 包括: 目标字段确定模块, 用于基于接收到的内容质控批量数据, 确定至少一个目标质控字 段; 其中, 所述内容质控批量数据中包括多个待质控字段以及相应的多个待质控数据; 目标数据调取模块, 用于对于各目标质控字段, 调取与当前目标质控字段相对应的目 标质控数据; 概率矩阵获取模块, 用于将所述目标质控数据输入至预先训练好的字段分类模型中, 得到与所述 目标质控数据相对应的概率矩阵; 其中, 所述概率矩阵中每个元素值用于表征 在各目标质控数据在相应预设质控字段 下所对应的概 率值; 质控结果确定模块, 用于基于所述概率矩阵和所述目标质控字段, 确定所述目标质控 字段下所述目标质控数据的质控结果。权 利 要 求 书 1/2 页 2 CN 115543985 A 27.根据权利要求6所述的装置, 其特 征在于, 所述 概率矩阵获取模块包括: 概率值获取单元, 用于将与 所述目标质控数据相对应的目标向量输入至所述字段分类 模型中, 得到所述目标质控数据中各子数据在相应预设质控字段 下所对应的概 率值; 概率矩阵确定单元, 用于基于预先设置的质控字段排布顺序和相应的概率值, 确定所 述概率矩阵; 其中, 所述 概率矩阵的列对应的为所述预设质控字段。 8.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑5中任一项所述的 数据内容质控方法。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使处理器执行时实现权利要求1 ‑5中任一项所述的数据内容质控 方法。 10.一种计算机程序产品, 其特征在于, 所述计算机程序产品包括计算机程序, 所述计 算机程序在被处 理器执行时实现根据权利要求1 ‑5中任一项所述的数据内容质控方法。权 利 要 求 书 2/2 页 3 CN 115543985 A 3

.PDF文档 专利 一种数据内容质控方法、装置、设备、介质及产品

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据内容质控方法、装置、设备、介质及产品 第 1 页 专利 一种数据内容质控方法、装置、设备、介质及产品 第 2 页 专利 一种数据内容质控方法、装置、设备、介质及产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:32:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。