专利基于多域信息融合的重点区域目标异常行为检测与定位方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210643944.5 (22)申请日 2022.06.08 (71)申请人南京信息技术研究院地址 210036 江苏省南京市鼓楼区浦江路 23号 (72)发明人陈亮　李琦　张婧　剧立伟　 (74)专利代理机构南京华恒专利代理事务所 (普通合伙) 32335 专利代理师宋方园 (51)Int.Cl. G06V 40/20(2022.01) G06V 40/10(2022.01) G06K 9/62(2022.01) G06V 10/82(2022.01) G06V 10/40(2022.01)G06V 10/762(2022.01) G06V 20/40(2022.01) G06V 20/64(2022.01) G06T 7/70(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多域信息融合的重点区域目标异常行为检测与定位方法 (57)摘要本发明公开一种基于多域信息融合的重点区域目标异常行为检测与定位方法，对重点区域中行人图像在视频帧中进行像素级定位，输出的特征图上进行语义解析，通过级联聚类生成人体部位的伪标签，同时提取全局特征以完成对目标的行为理解；接着将目标位置信息、网络信息与场景信息融合，将融合信息分解为频域特征与时域特征，以及将频域特征与时域特征融合得到多维信息融合特征；接着利用多层感知器异常得分网络对每组多维融合信息打分并生成置信度，通过偏差损失函数对异常得分网络进行优化，检测出具有异常行为的目标及进行定位。本发明结合多域信息判断监视区域内的可疑人员，并结合异常得分网络对异常行为进行判别与确认。权利要求书3页说明书7页附图2页 CN 115147921 A 2022.10.04 CN 115147921 A 1.一种基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：包括以下步骤：步骤一、将重点区域的人像抓拍图像作为CNN骨干网络的输入图像，然后使用语义解析法来进行像素级定位人体部位和个人物品：在骨干网络输出的特征图上使用级联聚类生成人体部位的伪标签，伪标签用于监督部位估计，最后根据自学习的部位估计得到全局特征以及人体部位、随身物品的局部特征，并记录目标位置信息； c为骨干网络通道数， h 和w分别为特征图的高度和宽度；步骤二、根据步骤一所得目标位置信息对周围区域的位置信息、场景信息和网络信息分别进行特征提取得到对应特征vloc,vscene,vnet；将所得三种特征进行融合获得得到新的包含所有信息的融合特征u；步骤三、将融合特征u输入到频域子网络和时域子网络，分别获得频域特征和时域特征，然后利用注意力机制融合频域和时域的特征，得到新的多维融合特征f；步骤四、将目标的多维融合特征f与步骤一所得全局特征、局部特征进行拼接，得到联合特征；利用多层感知器异常得分网络为重点区域的每个目标生成一个异常分数，即利用多层感知器网络作为隐藏层网络，使得每组融合特征均可通过隐藏层输出单个神经元来获得对应的异常分数；步骤五、利用变分自编码网络对步骤四所述的联合特征进行学习生成参考分数，即在编码器中构建两个神经网络来计算输入的均值和正态分布的方差作为每个数据的参考分数，然后利用数据的概率分布使得解码器生成接近正态分布的参考分数，并通过偏差损失函数对网络参数进行优化更新，生成每个目标的异常分数，最终获得具有异常行为的目标及其位置信息。 2.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：所述步骤一中在特征图上设计级联聚类来生成人体部位的伪标签的具体方法为：先使用Gg(x,y)表示特征图在空间位置(x,y)处的特征，且再将Gg (x,y)进行全局平均池化得到全局特征；对于K‑1个人体部位包括随身物品和一个背景，需要估计K个不同语义部分的置信度图，用D0,D1,D2,...,DK‑1来表示，使用Dk(x,y)表示属于语义部分k的空间位置(x,y)的置信度， k∈{0,. ..,K‑1}，然后通过使用下式来提取语义部分k的局部特征图：表示按元素相乘；对于人体部分预测，使用线性层和softmax激活函数作为分类器，其公式如下：其中， exp( ·)表示e(·)， W表示线性层的参数；通过利用交叉熵损失函数L oss来优化分类器，其中， L是空间位置(x,y)的人体部位生成的伪标签；最后，利用伪标签L来监督人体部权　利　要　求　书 1/3 页 2 CN 115147921 A 2位估计。 3.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：所述步骤二获得包含所有信息的融合特征u的方法为：使vloc,vscene,vnet分别表示提取的位置信息、场景信息、网络信息的对应特征，然后使用双模注意力机制进行特征融合的计算公式如下： p＝softmax(WPhA+bP), 其中， hA表示注意力分数， Ws,Wl,Wn,WP为可学习的权重， bA,bP为偏置向量， vi为向量vscene 的一个元素， pi为向量p的一个元素， u表示新的包含所有信息的融合特征。 4.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：所述步骤三的详细过程为：先将融合特征u分别输入频域子网络和时域子网络；在频域子网络中，先将融合特征u 变换到频域，再经过一系列卷积层和池化层，最后通过全连接层，得到频域特征l0，并将特征l0作为融合网络的一个输入；在时域子网络中，将融合特征u直接经过一系列卷积层和池化层，并将各池化层输出的时域特征l1,l2,...,ln作为融合网络的另外n个输入；然后使用注意力机制将特征l0,l1,l2,...,ln进行融合得到多域头融合特征f： atten(li)＝vTtanh(Wfli+bf)，其中，下标i∈[0,4]， atten为注意力评分函数， vT为权重向量， Wf为权重矩阵， bf为偏置单元， κi为注意力权重， exp(·)表示e(·)。 5.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：所述步骤四获取目标异常分数的方法为：设定多层感知器异常分数学习器为： AS(x； ω)＝S(I(x； ωt)； ωs)；其中， x表示多维融合特征f与全局和局部联合特征的拼接特征，为多层感知器异常分数网络， ω＝{ωt,ωs}表示网络的权重参数； I(x； ωt)∈Q为中间表示层，且中间表示层具有h个隐藏层，其权重ωt＝{w1,w2,...,wh}；为异常计分器， ωs为异常计分器的权重参数，异常计分器使用单个神经单元通过中间表示层输出的特征表示获得异常分数，具体表示为：其中， α ∈Q,ωs＝{ θs}, 是偏差参数。 6.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：所述步骤四根据变分自编码器生成的正常数据的参考得分，优化异常分数权　利　要　求　书 2/3 页 3 CN 115147921 A 3

专利 基于多域信息融合的重点区域目标异常行为检测与定位方法

专利基于多域信息融合的重点区域目标异常行为检测与定位方法