(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111577064.4
(22)申请日 2021.12.2 2
(71)申请人 哈尔滨工业大 学 (威海)
地址 264209 山 东省威海市文化西路2号
(72)发明人 张兆心 孙国营 程亚楠 许海燕
常利婷 李冷文婷
(74)专利代理 机构 北京怡丰知识产权代理有限
公司 11293
代理人 于振强 刘兴禄
(51)Int.Cl.
G06F 16/35(2019.01)
G06N 20/00(2019.01)
(54)发明名称
基于证书和域名解析的赌博域名识别方法
(57)摘要
本发明涉及一种基于证书和域名解析的赌
博域名识别方法, 其解决了在不对网页文本进行
解析的情况下现有赌博域名识别准确率低的技
术问题, 其步骤包括建立基于Bert微调构建中文
分类模型; 分别对所述中文赌博域名及良性域名
进行数字证书 解析; 通过N ‑gram方法获取域名的
文本特征向量; 通过RNN、 DecisionTree、
ExtraTree、 RandomForest、 KNN及SVM学习算 法对
中文赌博域名以及良性域名的数字证书解析特
征向量和域名文本特征向量进行训练和测试, 构
建中文赌博域名挖掘模型。 本发 明可广泛应于中
文赌博域名的识别。
权利要求书1页 说明书11页 附图3页
CN 114372144 A
2022.04.19
CN 114372144 A
1.一种基于证书和域名解析的赌 博域名识别方法, 其特 征是, 其具体步骤 包括:
步骤(1)、 建立基于B ert微调构建中文分类模型: 利用预训练好的中文B ert模型进行微
调, 获得具有数字证书的中文赌博域名, 从Alex Top 100万获得等量的具有数字证书的良
性域名;
步骤(2)、 分别对所述中文赌博域名及良性域名的数字证书进行解析: 根据rfc5280的
规定, 对证书中的基本域和Extensi ons字段进行解析 得到数字证书解析 特征向量;
步骤(3)、 通过N ‑gram方法获取域名的文本特征向量: 利用N ‑gram方法将Alex Top 20
万的域名数据集拆分成子字符串, 构建域名白名单子字符串集合, 通过对中文赌博域名以
及良性域名进行分词操作, 计算域名长度为N的子字符串在域名白名单子字符串集合中出
现的次数,以及域名的所有子字符串在域名白名单子字符串集合中出现的总次数, 得到域
名文本特 征向量;
步骤(4)、 通过RNN、 DecisionTree、 Extr aTree、 RandomForest、 KNN及SVM学习算法对中
文赌博域名以及良性域名通过数字证书解析以及域名文本解析获得 的向量进行训练和测
试, 构建中文赌 博域名挖掘模型。
2.根据权利要求1所述基于证书解析的赌博域名识别方法, 其特征在于, 所述步骤(1)
中所述中文赌博域名为Bert模型先基于网页的文本获得了一万个具有数字证书的中文赌
博域名, Bert模型的分类准确度为97.76%; 预训练好的中文Bert模型的数据来源包括: 一、
利用THUCTC数据集 获得标注的文本数据集; 二、 从手动标注中文 赌博域名中, 利用网络爬虫
爬取网页的文本信息, 再进行标注; 三、 从Alex Top 100万中筛选出排名靠前的中文域名,
利用百度的API进行 标注。
3.根据权利要求1所述基于证书解析的赌博域名识别方法, 其特征在于, 所述步骤(2)
中数字证书解析 特征向量长度为5 0, 其具体方法包括:
1、 基本域解析: 获取每个证书中的Version、 SerialNumber、 Signature、 Issuer、
Validity以及Subject字段内容, 并将这些内容 转化为整形数值;
2、 获取Extensi ons字段;
3、 判断Extensions字段是否符合rfc5280的约束: 判断Extensions字段中的每个字段
是否被设置为critical。
4.根据权利要求1所述基于证书解析的赌博域名识别方法, 其特征在于, 所述步骤(3)
中域名长度为N的子字符串在域名白名单子字符串集合中出现次数构建方法为: 选用Alex
Top 20万的域名来构建域名的 白名单子字符串集合, 每一个域名去除特殊符号后被尺 寸为
N的滑动窗口拆分, 从最左边开始, 每相 邻的N个字符拆分得到一个子字符串, 并向右滑动一
个字符, 直到滑动窗口的最右端第一次到达字符串的最右 边为止, 合并相同的子字符串, 构
建域名白名单子 字符串集 合, 所述N的值为3,4,5,6 。
5.根据权利要求1所述基于证书解析的赌博域名识别方法, 其特征在于, 所述步骤(4)
中RNN学习算法构造双层的训练模型, 第一层的记忆体个数设置为300, 使用0.2的
Droupout, 第二层的记 忆体个数设置为20 0, 使用0.2的Droupout。
6.根据权利要求1所述基于证书解析的赌博域名识别方法, 其特征在于, 所述步骤(4)
中训练和测试的比例设置为8:2, 并通过A ccuracy、 Precision、 Recall以及F1对测试结果进
行评价。权 利 要 求 书 1/1 页
2
CN 114372144 A
2基于证书和域名解 析的赌博 域名识别方 法
技术领域
[0001]本发明涉及计算机领域, 特别是涉及一种基于证书和域名解析的赌博域名识别方
法。
背景技术
[0002]随着计算机技术的飞速发展, 互联网走进了千家万户, 但网络给人们带来信息和
方便的同时, 也带来了负面的信息。 各种宣扬色情、 暴力、 赌博的不良内容充斥着网络, 不仅
严重污染着未成年人 的心灵, 也破坏了社会风气。 数字证书实现了公钥基础设施中的公钥
管理, 能够有效的避免网络通信过程中的中间人攻击, 很多中文赌博网站都会 申请使用能
够被浏览器误认为是良性证书的赌博数字证书, 从而增加用户对中文赌博网站的信任度,
并增强赌资流动的安全性。 大部分赌博域名的识别方法都是基于域名网页文本内容的, 而
网页文本内容的获取和解析都是非常耗时的。 除了基于域名网页文本内容的分类方法以
外, 还没有较好的赌 博域名分类方法, 导 致赌博域名难于有效识别管理。
发明内容
[0003]本发明为了解决在不对网页文本进行解析的情况下现有赌博域名识别准确率低
的技术问题, 提供一种识别准确率高且省时快捷的基于证书和域名解析的赌博域名识别方
法。
[0004]本发明提供一种基于证书和域名解析的赌 博域名识别方法, 其具体步骤 包括:
[0005]步骤(1)、 建立基于Bert微调构建 中文分类模型: 利用预训练好的中文Bert模型进
行微调, 获得具有数字证书的中文赌博域名, 从Alex Top 100万获得等量的具有数字证书
的良性域名;
[0006]步骤(2)、 分别对所述中文赌博域名及良性域名的数字证书进行解析: 根据
rfc5280的规定, 对证书中的基本域和Extensions字段进行解析得到数字证书解析特征 向
量;
[0007]步骤(3)、 通过N ‑gram方法获取域名的文本特征向量: 利用N ‑gram方法将Alex Top
20万的域名数据集拆分成子字符串, 构建域名白名单子字符串集合, 通过对中文赌博域名
以及良性域名进行分词操作, 计算域名长度为N的子字符串在域名白名单子字符串集合中
出现的次数,以及域名的所有子字符串在域名白名单子字符串集合中出现的总次数, 得到
域名文本特 征向量;
[0008]步骤(4)、 通过RNN、 DecisionTree、 ExtraTree、 RandomForest、 KNN及SVM学习算法
对中文赌博域名以及良性域名通过数字证书解析以及域名文本解析获得 的向量进行训练
和测试, 构建中文赌 博域名挖掘模型。
[0009]优选地, 所述步骤(1)中所述中文赌博域名为Bert模型先基于网页的文本获得了
一万个具有数字证书的中文赌博域名, Bert模 型的分类准确度为97.76%; 预训练好的中文
Bert模型的数据来源包括: 一、 利用THUCTC数据集获得标注的文本数据集; 二、 从手动标注说 明 书 1/11 页
3
CN 114372144 A
3
专利 基于证书和域名解析的赌博域名识别方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:17:13上传分享