行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210003707.2 (22)申请日 2022.01.04 (71)申请人 陕西数图行信息科技有限公司 地址 710000 陕西省西安市高新区丈 八一 路10号中铁西安中心1栋2 9层 (72)发明人 武亚洲 王治胜 童曦  (51)Int.Cl. G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 16/27(2019.01) G06F 16/2455(2019.01) G06F 16/23(2019.01) G06F 9/48(2006.01) (54)发明名称 一种自动化网络数据采集方法 (57)摘要 本发明涉及网络数据技术领域, 公开了一种 自动化网络数据采集方法, 所述采集方法包括: S1、 对网络数据进行采集, 得到原始网页; S2、 对 原始网页进行数据提取, 得到解析后网页; S3、 对 解析后网页进行去空、 去错、 去重复、 归一化及残 缺值补充处理, 得到处理后数据; S4、 对处理后数 据进行存储; S5、 对存储的数据进行处理。 本发明 的自动化网络数据采集方法能够对第三平台公 开的数据进行24小时不间断采集, 支持分钟级别 第三方平台数据检索同步, 多个站点增量部分数 据更新能做到秒级更新, 无需人工监管, 同时通 过关键词检索配置, 可实现自动化检索的同时过 滤掉无关内容, 提高精准度, 实现无监督、 无遗 漏、 快速可迭代式数据采集。 权利要求书2页 说明书3页 附图2页 CN 114329145 A 2022.04.12 CN 114329145 A 1.一种自动化网络数据采集方法, 其特 征在于, 所述采集方法包括: S1、 对网络数据进行采集, 得到原 始网页; S2、 对所述原 始网页进行 数据提取, 得到解析后网页; S3、 对所述解析后网页进行去空、 去错、 去重复、 归一化及残缺值补充 处理, 得到处理后 数据; S4、 对所述处 理后数据进行存 储; S5、 对存储的数据进行处 理。 2.根据权利要求1所述的采集方法, 其特征在于, 所述S1、 对网络数据进行采集, 得到原 始网页具体包括: S11、 通过Spider爬虫引擎发出URL爬虫请求; S12、 通过Sc heduler任务调度进行自动化任务调度; S13、 对采集的URL数据进行解析, 并以将解析后的ULR数据以 队列的形式进行存 储; S14、 进行采集配置, 并得到原 始网页。 3.根据权利要求2所述的采集方法, 其特征在于, 所述S12、 通过Scheduler任务调度进 行自动化任务调度具体为: 配置反爬规则、 分布式部署及自动化引擎。 4.根据权利要求2所述的采集方法, 其特征在于, 所述ULR数据包括每个ULR的访问量、 有效访问量、 正确解析入队次数、 是否需要 User Agent参数、 URL类型及URL平台。 5.根据权利要求2所述的采集方法, 其特征在于, 所述S14、 进行采集配置, 并得到原始 网页具体为: 配置爬虫请求头、 爬虫代理、 爬虫访问频次及爬虫反爬; 进行cookie解析、 动态 破解解析、 JS加密破解、 CS S加密破解及并发控制。 6.根据权利要求1所述的采集方法, 其特征在于, 所述对所述原始网页进行数据提取具 体为: 通过Xpath解析、 正则解析、 JSON解析、 CSS选择器、 JS加 密解析、 ajax解析、 CSS加 密解析 及beautifulSoup解析中的一种或多种组合对所述原 始网页进行 数据提取。 7.根据权利要求1所述的采集方法, 其特征在于, 所述S4、 对所述处理后数据进行存储 具体包括: S41、 对所述处 理后数据进行 数据清洗; S42、 将清洗 完的数据通过目标字段进行Hash处 理, 建立映射后写入原 始数据库; S43、 取出原始数据库的Hash集合和业务数据库的Hash集合, 计算需要添加的数据集 合, 其中需要添加的数据集合为原始数据库的Hash集合与业务数据库的Hash集合的差集; 计算需要 更新的数据集合, 其中需要 更新的数据集合为原始数据库的Hash集合与业务数据 库的Hash集 合的交集; S44、 将需要所述添加的数据集合映射的数据插入所述业务数据库, 将所述需要更新的 数据集合映射的数据更新到所述 业务数据库; S45、 将所述 业务数据库 与线上平台数据库进行对比, 更新 业务数据库中的扩展信息 。 8.根据权利要求1所述的采集方法, 其特征在于, 所述S5、 对存储的数据进行处理具体 包括: S51、 进行 数据分析, 包括数据可视化展示和统计分析; S52、 进行 数据挖掘, 包括 根据业务主题进行 数据挖掘;权 利 要 求 书 1/2 页 2 CN 114329145 A 2S53、 进行数据同步处 理, 以更新本地 业务数据库。权 利 要 求 书 2/2 页 3 CN 114329145 A 3

.PDF文档 专利 一种自动化网络数据采集方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种自动化网络数据采集方法 第 1 页 专利 一种自动化网络数据采集方法 第 2 页 专利 一种自动化网络数据采集方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:16:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。