专利 基于自注意力机制的真实场景图像篡改定位系统与方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211167523.6 (22)申请日 2022.09.23 (71)申请人华南农业大学地址 510642 广东省广州市天河区五山路 483号 (72)发明人边山　钟浩　黄远航　李颖　梁炜健　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师刘俊 (51)Int.Cl. G06V 20/00(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/40(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于自注意力机制的真实场景图像篡改定位系统与方法 (57)摘要本发明公开了一种基于自注意力机制的真实场景图像篡改定位系统与方法，涉及计算机视觉的技术领域，包括特征提取模块、特征处理模块和特征融合模块；特征处理模块包括N个并行的特征处理分支；真实场景篡改图像输入特征提取模块，获得N个阶段初始特征图；第N个特征处理分支对第N阶段初始特征图进行处理，获得第N 个注意力特征矩阵，输入前一特征处理分支；前 N‑1个特征处理分支，每个分支根据相应的阶段初始特征图，结合后一分支的注意力特征矩阵进行处理，获得本分支的注意力特征矩阵，输入前一分支；特征融合模块对N个注意力特征矩阵进行特征融合，获得真实场景图像篡改掩码图。本发明能够在真实场景篡改图像中实现准确的篡改定位。权利要求书2页说明书10页附图6页 CN 115482459 A 2022.12.16 CN 115482459 A 1.一种基于自注意力机制的真实场景图像篡改定位系统，其特征在于，包括特征提取模块、特征处理模块和特征融合模块；所述特征处理模块包括 N个并行的特征处理分支；真实场景篡改图像输入特征提取模块进行多阶段的特征提取操作，获得N个阶段初始特征图，输入特征处理模块；第N个特征处理分支对第N阶段初始特征图进行下采样操作、展平操作、注意力计算操作，获得第N个注意力特征矩阵，输入第N ‑1个特征处理分支和特征融合模块；对于前N ‑1个特征处理分支，每个特征处理分支均对相应的阶段初始特征图进行下采样操作、展平操作、与后一特征处理分支的注意力特征矩阵加和操作、注意力计算操作，获得本特征处理分支的注意力特征矩阵，输入前一特征处理分支和特征融合模块；特征融合模块对N个注意力特征矩阵进行特征融合操作，获得真实场景图像篡改掩码图。 2.根据权利要求1所述的基于自注意力机制的真实场景图像篡改定位系统，其特征在于，所述特征提取模块包括 N个依次连接的卷积神经网络单元；真实场景篡改图像输入特征提取模块，第一卷积神经网络单元对真实场景篡改图像进行特征提取，获得第一阶段初始特征图f1，输入特征处理模块和第二卷积神经网络单元；第二卷积神经网络单元对第一阶段初始特征图f1进行特征提取，获得第二阶段初始特征图f2，输入特征处理模块和第三卷积神经网络单元；直到第N卷积神经网络单元对第N ‑1阶段初始特征图fN‑1进行特征提取，获得第N阶段初始特征图fN，输入特征处理模块。 3.根据权利要求2所述的基于自注意力机制的真实场景图像篡改定位系统，其特征在于，所述特征处理模块包括N个并行的特征处理分支；第N个特征处理分支包括依次连接的重叠卷积单元、展平单元和全自注意力单元；前N ‑1个特征处理分支结构相同，均包括依次连接的重叠卷积单元、展平单元、第一矩阵相加点和全自注意力单元；第j个特征处理分支中的全自注意力单元的输出端还与第j ‑1个特征处理分支中的矩阵相加点连接， j＝2, …, N；所述每个特征处理分支中的重叠卷积单元与特征提取模块中的N个卷积神经网络单元对应连接，每个全自注意力单元均与特征融合模块连接。 4.根据权利要求3所述的基于自注意力机制的真实场景图像篡改定位系统，其特征在于，所述重叠卷积单元的卷积核大小均为3 ×3。 5.根据权利要求3所述的基于自注意力机制的真实场景图像篡改定位系统，其特征在于，全自注意力单元计算注意力特征矩阵的具体方法为：式中， sk表示第k个注意力特征矩阵， FAMk表示第k个全自注意力单元，表示第k 个重叠卷积单元， flattenk表示第k个展平单元， Up(*)表示上采样操作， fk表示第k阶段初始特征图， k∈{1,2, …,N}。 6.根据权利要求3所述的基于自注意力机制的真实场景图像篡改定位系统，其特征在于，所述全自注意力单元包括P个依次连接的全自注意力网络；每个全自注意力网络包括依次连接的第一归一化层、多头自注意层、第二矩阵相加点、第二归一化层、混合多层感知机层和第三矩阵相加点；所述第一归一化层的输入端还与第二矩阵相加点的输入端连接，第权　利　要　求　书 1/2 页 2 CN 115482459 A 2二矩阵相加点的输出端还与第三矩阵相加点的输入端连接。 7.根据权利要求6所述的基于自注意力机制的真实场景图像篡改定位系统，其特征在于，所述混合多层感知机层包括依次连接的第一全连接层、深度可分离卷积层、第二全连接层、全局通道池化层、第三全连接层、第四全连接层和通道相乘点；所述第二全连接层的输出端还与通道相乘点输入端连接。 8.根据权利要求5所述的基于自注意力机制的真实场景图像篡改定位系统，其特征在于，所述特征融合模块包括依次连接的维度重整层、第五全连接层、上采样层、通道拼接层、第六全连接层和第七全连接层。 9.根据权利要求8所述的基于自注意力机制的真实场景图像篡改定位系统，其特征在于，所述特征融合模块对N个注意力特征矩阵进行特征融合操作，获得真实场景图像篡改掩码图的具体方法为：将N个注意力特征矩阵输入特征融合模块中，注意力特征矩阵sk的维度为经维度重整层将注意力特征矩阵从二维重整为三维，维度变化为经第五全连接层将注意力特征矩阵统一至相同的通道数，即通过上采样层将注意力特征矩阵的尺寸调整至其中尺寸最大的注意力特征矩阵的尺寸，即H ×W×E′；通过通道拼接层将注意力特征矩阵进行通道拼接，即H ×W× NE′；通过第六全连接层和第七全连接层将注意力特征矩阵的通道数收缩至1，即H ×W×1；最后将注意力特征矩阵激活后上采样操作解码出真实场景图像篡改掩码概率图： M＝Up(Sigmo id(SMM(S))) 式中， M表示真实场景图像篡改掩码概率图， Up(*)表示上采样操作， Sigmoid(*)表示 Sigmoid激活函数， SMM(*)表示特征融合模块， S表示注意力特征矩阵集合， S＝{sk|k＝1, 2,…,N}； H,W,E分别表示注意力特征矩阵的高度、宽度、通道数， E ′表示注意力特征矩阵统一后的通道数；设置概率阈值，根据概率阈值对真实场景图像篡改掩码概率图进行二值化操作，获得真实场景图像篡改掩码图。 10.一种基于自注意力机制的真实场景图像篡改定位方法，基于权利要求1 ‑9任意一项所述的基于自注意力机制的真实场景图像篡改定位系统，其特征在于，所述方法包括： S1：获取真实场景篡改图像； S2：对真实场景篡改图像进行多阶段的特征提取，获得N个阶段初始特征图； S3：对第N阶段初始特征图进行下采样操作、展平操作、注意力计算操作，获得第N个注意力特征矩阵； S4：对前N ‑1个阶段初始特征图进行下采样操作、展平操作、与后一特征处理分支的注意力特征矩阵加和操作、注意力计算操作，获得前N‑1个注意力特征矩阵； S5：对N个注意力特征矩阵进行特征融合，获得真实场景图像篡改掩码图。权　利　要　求　书 2/2 页 3 CN 115482459 A 3

专利 基于自注意力机制的真实场景图像篡改定位系统与方法

专利基于自注意力机制的真实场景图像篡改定位系统与方法