行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111533895.1 (22)申请日 2021.12.15 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 刘宇昂 张伟 王骏  (74)专利代理 机构 上海德禾翰通 律师事务所 31319 专利代理师 夏思秋 (51)Int.Cl. G06T 7/10(2017.01) G06N 20/00(2019.01) (54)发明名称 基于知识聚合与解耦蒸馏的语义分割模型 压缩系统及压缩方法 (57)摘要 本发明公开了一种基于知识聚合与解耦蒸 馏的语义分割模型压缩系统, 包括学生模型、 教 师模型、 特征层综合知识提取与编码模块、 感知 聚合模块、 辅助预测器、 标签解耦蒸馏模块。 本发 明还公开了一种基于上述系统的模 型压缩方法, 该方法通过特征层综合知识的提取与聚合策略, 在蒸馏训练过程中, 分别获得教师、 学生模型的 多种高维特征图及其聚合后的综合知识图; 然后 通过优化学生模 型使其逼近教师的综合知识图, 实现多种语义信息和上下文知识的蒸馏学习; 构 建辅助预测分支控制综合知识的聚合学习过程, 并提供了轻量化的代理在线学习机制帮助学生 模型学习; 最后通过标签解耦蒸馏模块解耦教 师‑学生模型输出端的软标签蒸馏和中间层的特 征知识蒸馏。 权利要求书2页 说明书9页 附图2页 CN 114708270 A 2022.07.05 CN 114708270 A 1.一种基于知识聚合与解耦蒸馏的语义分割模型压缩系统, 其特征在于, 所述系统包 括学生模型、 教师模型、 特征层综合知识 提取与编 码模块、 感知聚合模块、 辅助预测器、 标签 解耦蒸馏模块; 所述教师模型为训练完备的大型语义分割 模型; 所述学生模型为压缩的小型语义分割 模型; 所述教师模型和学生模型中均包括特 征提取器和预测器; 所述特征层综合知识提取与编码模块负责从教师模型和学生模型中的特征提取器输 出的特征图中提取多种高阶知识并进行维度转换和编码; 所述感知聚合模块通过将所述多种编码后的知识图进行聚合, 分别获得教师模型的聚 合知识图At和学生模型的聚合知识图As, 用于从教师模型向学生模型传递信息; 所述辅助预测器用于将输入的教师模型对应的聚合知识图At转换为语义预测图; 所述标签解耦蒸馏模块用于解耦特征蒸馏与软标签蒸馏, 通过利用辅助 预测器的输出 估计所需标签蒸馏部分用于指导学生模型, 使得学生模型从教师模型软标签中学习单一特 征蒸馏中未关注到的信息 。 2.如权利要求1所述的系统, 其特征在于, 所述特征层综合知识提取与编码模块包括知 识提取层、 特 征转换层、 编码器; 所述知识提取层利用语义分割 模型的特征提取器输出的特征图, 通过多种矩阵计算获 得不同类型的异质知识图; 所述特征转换层负责将异质知识图进行 形状转换使其宽高一 致; 所述编码器将宽高一致的异质知识图映射到统一的维度空间, 获得不同类型、 相同维 度的知识图表示。 3.如权利要求1所述的系统, 其特征在于, 所述感知聚合模块由单层核为1 ×1的卷积 层、 归一化层、 ReLU激活层构成, 所述感知聚合模块连接于综合知识提取与编码模块之后, 将综合知识 提取与编码模块所获得的多个知识图按通道进 行拼接后作为输入, 输出单张聚 合知识图作为辅助预测器的输入。 4.如权利要求1所述的系统, 其特征在于, 所述辅助预测器为教师与学生端共享, 连接 于教师与学生端的感知聚合模块之后, 与教师端的综合知识提取与编码模块、 感知聚合模 块共同构成辅助预测分支, 利用聚合知识图进行语义分割 预测; 所述辅助预测器的结构与 教师模型中的预测器结构相同。 5.如权利要求4所述的系统, 其特征在于, 所述辅助 预测分支中的所有组件均与学生模 型同步更新, 教师端所产生的聚合知识图不断更新, 为学生模型提供了一种代理在线学习 机制, 即大型 的教师模型无需参数更新, 只需要辅助预测分支少量的参数更新即可实现对 学生模型的逐步指导。 6.一种利用如权利要求1 ‑5之任一项所述系统 的基于知识聚合与解耦蒸馏的语义分割 模型压缩方法, 其特 征在于, 包括如下步骤: 步骤1: 图像输入, 教师、 学生模型分别进行推理, 经过综合知识提取与编码模块、 感知 聚合模块获得教师端、 学生端的聚合知识图, 通过L1损失函数使学生的聚合知识图与教师 逼近, 同时更新学生端知识提取与编码模块; 步骤2: 教师端的聚合知识图经辅助预测器获得语义预测图, 根据真实语义图建立交叉 熵损失函数 更新辅助预测器和教师端知识提取与编码模块。权 利 要 求 书 1/2 页 2 CN 114708270 A 2步骤3: 利用标签解耦 蒸馏模块指导学生模型和辅助预测器的软 标签蒸馏训练。 7.如权利要求6所述的方法, 其特征在于, 步骤1中, 所述L1损失函数用于描述学生端 聚 合知识蒸馏损失, 公式如下: Lka(As,At)=||As‑At||1, 其中, 教师端的感知聚合模块计算得到的聚合知 识图At, 学生端的感知聚合模块计算得 到的聚合知识图为As。 8.如权利要求6所述的方法, 其特征在于, 步骤2中, 通过获得教师模型、 学生模型和辅 助预测器的预测输出, 根据真实标签监督和教师指导更新辅助预测分支中的所有组件和学 生模型本身; 在辅助预测分支中, 教师端的聚合知识图输入辅助预测器, 然后其输出Ps与真 实标签Y建立交叉熵损失函数用于更新辅助预测分支中所有组件的参数; 所述交叉熵损失 函数公式如下: 其中, C为语义类别数目, Ps为输入图像X时学生模型的预测器输出, Y为语义真实标签。 9.如权利要求6所述的方法, 其特征在于, 步骤3中, 利用标签解耦蒸馏模块对蒸馏训练 中的特征蒸馏与软 标签蒸馏进行解耦和校正, 其工作流 程包括: 步骤3‑1: 利用教师端与学生端计算得到的聚合知识图经辅助预测器推理后的两个预 测图之间作差得到一致性掩码矩阵Mc, 然后Mc取反获得非一致掩码矩阵Mr, 分别标记两个预 测图之间一 致与不一致的预测区域; 步骤3‑2: 将两个掩码矩阵用于校正基于Kullback ‑Leibler散度的针对学生 的软标签 蒸馏; 步骤3‑3: 将两个掩码矩阵用于校正教师模型对辅助预测器的软标签蒸馏训练, 以增强 辅助预测分支对聚合知识图的学习。 10.如权利要求6所述的方法, 其特征在于, 所述学生模型的总体损失包括聚合知识蒸 馏损失和标签解耦 蒸馏损失, 所述总体损失的公式如下: 其中, Pt和Ps分别为输入图像X时教师和学生模型的预测器输出, Y为语义真实标签, Lce (·)为交叉熵损失函数, Lkl(·)为Kullback ‑Leibler散度函数, α和β 为平衡因子, ⊙和 分 别为矩阵Hadamard乘积和 加法运算。 11.如权利要求6所述的方法, 其特征在于, 步骤2中, 所述辅助预测器的训练损 失函数 为: 其中, Pht为辅助预测器在教师端的预测输出。权 利 要 求 书 2/2 页 3 CN 114708270 A 3

.PDF文档 专利 基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法 第 1 页 专利 基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法 第 2 页 专利 基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:17:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。