行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211014611.2 (22)申请日 2022.08.23 (71)申请人 青岛科技大 学 地址 266000 山东省青岛市崂山区松岭路 99号 (72)发明人 赵文仓 王浩 邵尤佳 杨同森  (74)专利代理 机构 青岛中天汇智知识产权代理 有限公司 37241 专利代理师 韩丽萍 (51)Int.Cl. G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/771(2022.01) G06V 10/30(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于元特征的伪监 督聚类方法 (57)摘要 本发明属于深度学习技术领域, 具体涉及一 种基于元特征的伪监督聚类方法, 包括以下步 骤: 将数据集输入深度模型进行预训练; 将原始 图像和数据增强后的图像输入预训练模型中分 别用于实例级别特征提取和类别预测, 利用分类 器对类别样 本进行预测, 选取高置信度的样本用 于构建含有稳定语义信息的元特征; 伪标签构建 和伪标签全局分配; 伪标签优化深度模型, 采用 带有标签平滑的交叉熵损失指导并优化元特征 的选取和伪标签的分配。 本发明在有效保证特征 语义的情况下, 提供稳定的聚类监督信号, 通过 在全局范围内分配伪标签完成从稳定样本到语 义标签的直接映射, 有效提高深度模 型的分类精 度, 实现了稳定特 征的语义自学习。 权利要求书2页 说明书6页 附图4页 CN 115331040 A 2022.11.11 CN 115331040 A 1.一种基于元 特征的伪监 督聚类方法, 其特 征在于, 包括以下步骤: S1: 将数据集输入深度模型进行 预训练; S2: 将原始图像和数据增强后的图像输入预训练模型中分别用于实例级别特征提取和 类别预测, 利用分类器对类别样本进 行预测, 对置信度较高的样本特征进 行挑选, 选取高置 信度的样本用于构建含有稳定语义信息的元 特征fMeta; 选取每个类别概率最高的K个样本作为自信样本Ck, 自信样本加权平均后作为元特征 fMeta, S3: 伪标签构建和伪标签全局分配; 即, 获取元特征后, 为元特征在全局范围内寻找语 义最近邻样本, 为元特征和对应的语义最近邻分配相同的伪标签, lk={N(fMeta)|k∈[1, 2…, S]}, 其中, N( ·)表示样本的全局最近邻, lk为元特征近邻分配的伪标签; S4: 伪标签优化深度模型, 采用带有标签平滑 的交叉熵损失指导并优化元特征的选取 和伪标签的分配; 标签平滑方法通过添加均匀噪音来改进类别伪标签y, 给定带有相应标签, 将噪声注入 所有类别, 如下 所示: 其中, C是类别数量, ε~Uni form(0, 1)是噪声, y是类别伪标签, 是添加均匀噪声后的 类别伪标签; 使用添加均匀噪声后的类别伪标签 和随机增强样本的预测标签来计算交叉熵, 为 其中, χ为数据集, pi由对模型倒数第二层输出的logits向量z 应用到函数计算得到, Zj为目标类别。 2.根据权利要求1所述的一种基于元特征的伪监督聚类方法, 其特征在于, 步骤S1中的 深度模型为对比学习模型MoCo, 将数据集输入对比学习模型MoCo进行预训练, 训练数据集 均为图像数据集。 3.根据权利要求1所述的一种基于元特征的伪监督聚类方法, 其特征在于, 步骤S1中, 当预训练的深度模型收敛之后, 停止训练, 将参数冻结, 用于后续的深度模型进 行实例级 特 征提取。 4.根据权利要求1所述的一种基于元特征的伪监督 聚类方法, 其特征在于, 所述元特征 由置信度最高的样本进行加权平均后形成, 所述元特征是相 应类别中概率最高、 最具有类 别代表性的特 征, 有效保证了该类别稳定的语义属性, 能够有效表示该类别的语义信息 。 5.根据权利要求1所述的一种基于元特征的伪监督聚类方法, 其特征在于, 步骤S2中将 原始图像输入预训练深度模型, 得到实例级 特征; 增强后的图像经过预训练深度模型后, 将 特征输入分类器, 用于对样 本概率进 行预测, 输出增强图像的预测概率, 从 中选取高置信度 的样本特 征并加权平均后作为元 特征。权 利 要 求 书 1/2 页 2 CN 115331040 A 26.根据权利要求5所述的一种基于元特征的伪监督 聚类方法, 其特征在于, 增强后的图 像R(x)输入预训练深度模型后得到f(R(x)), 经过由两层的多层感知机构成的分类器Φc, 分类器输出增强图像预测概 率Pk, 其中, Pk=Φc(f(R(x))), Ck=topK(Pki, f(x)); 其中, Pki是指第i个类别的预测概率; f(x)是原图像输入预训练模 型后得到的特征; topK()是挑选对应类别中K个概率最高的特征; Ck是自信样本, 通过对相 应类别的特 征概率进行从高到低进行排列, 选取 前K个概率最高的作为Ck。 7.根据权利要求1所述的一种基于元特征的伪监督聚类方法, 其特征在于, 步骤S4中采 用带有标签平滑的交叉熵损失函数, 有效避免模型对于预测过于自信; 通过不断迭代运行, 分类器预测越来越准确, 最终达 到良好的聚类效果。权 利 要 求 书 2/2 页 3 CN 115331040 A 3

.PDF文档 专利 一种基于元特征的伪监督聚类方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于元特征的伪监督聚类方法 第 1 页 专利 一种基于元特征的伪监督聚类方法 第 2 页 专利 一种基于元特征的伪监督聚类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:54:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。