专利基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111533895.1 (22)申请日 2021.12.15 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人刘宇昂　张伟　王骏　 (74)专利代理机构上海德禾翰通律师事务所 31319 专利代理师夏思秋 (51)Int.Cl. G06T 7/10(2017.01) G06N 20/00(2019.01) (54)发明名称基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法 (57)摘要本发明公开了一种基于知识聚合与解耦蒸馏的语义分割模型压缩系统，包括学生模型、教师模型、特征层综合知识提取与编码模块、感知聚合模块、辅助预测器、标签解耦蒸馏模块。本发明还公开了一种基于上述系统的模型压缩方法，该方法通过特征层综合知识的提取与聚合策略，在蒸馏训练过程中，分别获得教师、学生模型的多种高维特征图及其聚合后的综合知识图；然后通过优化学生模型使其逼近教师的综合知识图，实现多种语义信息和上下文知识的蒸馏学习；构建辅助预测分支控制综合知识的聚合学习过程，并提供了轻量化的代理在线学习机制帮助学生模型学习；最后通过标签解耦蒸馏模块解耦教师‑学生模型输出端的软标签蒸馏和中间层的特征知识蒸馏。权利要求书2页说明书9页附图2页 CN 114708270 A 2022.07.05 CN 114708270 A 1.一种基于知识聚合与解耦蒸馏的语义分割模型压缩系统，其特征在于，所述系统包括学生模型、教师模型、特征层综合知识提取与编码模块、感知聚合模块、辅助预测器、标签解耦蒸馏模块；所述教师模型为训练完备的大型语义分割模型；所述学生模型为压缩的小型语义分割模型；所述教师模型和学生模型中均包括特征提取器和预测器；所述特征层综合知识提取与编码模块负责从教师模型和学生模型中的特征提取器输出的特征图中提取多种高阶知识并进行维度转换和编码；所述感知聚合模块通过将所述多种编码后的知识图进行聚合，分别获得教师模型的聚合知识图At和学生模型的聚合知识图As，用于从教师模型向学生模型传递信息；所述辅助预测器用于将输入的教师模型对应的聚合知识图At转换为语义预测图；所述标签解耦蒸馏模块用于解耦特征蒸馏与软标签蒸馏，通过利用辅助预测器的输出估计所需标签蒸馏部分用于指导学生模型，使得学生模型从教师模型软标签中学习单一特征蒸馏中未关注到的信息。 2.如权利要求1所述的系统，其特征在于，所述特征层综合知识提取与编码模块包括知识提取层、特征转换层、编码器；所述知识提取层利用语义分割模型的特征提取器输出的特征图，通过多种矩阵计算获得不同类型的异质知识图；所述特征转换层负责将异质知识图进行形状转换使其宽高一致；所述编码器将宽高一致的异质知识图映射到统一的维度空间，获得不同类型、相同维度的知识图表示。 3.如权利要求1所述的系统，其特征在于，所述感知聚合模块由单层核为1 ×1的卷积层、归一化层、 ReLU激活层构成，所述感知聚合模块连接于综合知识提取与编码模块之后，将综合知识提取与编码模块所获得的多个知识图按通道进行拼接后作为输入，输出单张聚合知识图作为辅助预测器的输入。 4.如权利要求1所述的系统，其特征在于，所述辅助预测器为教师与学生端共享，连接于教师与学生端的感知聚合模块之后，与教师端的综合知识提取与编码模块、感知聚合模块共同构成辅助预测分支，利用聚合知识图进行语义分割预测；所述辅助预测器的结构与教师模型中的预测器结构相同。 5.如权利要求4所述的系统，其特征在于，所述辅助预测分支中的所有组件均与学生模型同步更新，教师端所产生的聚合知识图不断更新，为学生模型提供了一种代理在线学习机制，即大型的教师模型无需参数更新，只需要辅助预测分支少量的参数更新即可实现对学生模型的逐步指导。 6.一种利用如权利要求1 ‑5之任一项所述系统的基于知识聚合与解耦蒸馏的语义分割模型压缩方法，其特征在于，包括如下步骤：步骤1：图像输入，教师、学生模型分别进行推理，经过综合知识提取与编码模块、感知聚合模块获得教师端、学生端的聚合知识图，通过L1损失函数使学生的聚合知识图与教师逼近，同时更新学生端知识提取与编码模块；步骤2：教师端的聚合知识图经辅助预测器获得语义预测图，根据真实语义图建立交叉熵损失函数更新辅助预测器和教师端知识提取与编码模块。权　利　要　求　书 1/2 页 2 CN 114708270 A 2步骤3：利用标签解耦蒸馏模块指导学生模型和辅助预测器的软标签蒸馏训练。 7.如权利要求6所述的方法，其特征在于，步骤1中，所述L1损失函数用于描述学生端聚合知识蒸馏损失，公式如下： Lka(As,At)＝||As‑At||1，其中，教师端的感知聚合模块计算得到的聚合知识图At，学生端的感知聚合模块计算得到的聚合知识图为As。 8.如权利要求6所述的方法，其特征在于，步骤2中，通过获得教师模型、学生模型和辅助预测器的预测输出，根据真实标签监督和教师指导更新辅助预测分支中的所有组件和学生模型本身；在辅助预测分支中，教师端的聚合知识图输入辅助预测器，然后其输出Ps与真实标签Y建立交叉熵损失函数用于更新辅助预测分支中所有组件的参数；所述交叉熵损失函数公式如下：其中， C为语义类别数目， Ps为输入图像X时学生模型的预测器输出， Y为语义真实标签。 9.如权利要求6所述的方法，其特征在于，步骤3中，利用标签解耦蒸馏模块对蒸馏训练中的特征蒸馏与软标签蒸馏进行解耦和校正，其工作流程包括：步骤3‑1：利用教师端与学生端计算得到的聚合知识图经辅助预测器推理后的两个预测图之间作差得到一致性掩码矩阵Mc，然后Mc取反获得非一致掩码矩阵Mr，分别标记两个预测图之间一致与不一致的预测区域；步骤3‑2：将两个掩码矩阵用于校正基于Kullback ‑Leibler散度的针对学生的软标签蒸馏；步骤3‑3：将两个掩码矩阵用于校正教师模型对辅助预测器的软标签蒸馏训练，以增强辅助预测分支对聚合知识图的学习。 10.如权利要求6所述的方法，其特征在于，所述学生模型的总体损失包括聚合知识蒸馏损失和标签解耦蒸馏损失，所述总体损失的公式如下：其中， Pt和Ps分别为输入图像X时教师和学生模型的预测器输出， Y为语义真实标签， Lce (·)为交叉熵损失函数， Lkl(·)为Kullback ‑Leibler散度函数， α和β 为平衡因子， ⊙和分别为矩阵Hadamard乘积和加法运算。 11.如权利要求6所述的方法，其特征在于，步骤2中，所述辅助预测器的训练损失函数为：其中， Pht为辅助预测器在教师端的预测输出。权　利　要　求　书 2/2 页 3 CN 114708270 A 3

专利 基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法

专利基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法