行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210709795.8 (22)申请日 2022.06.23 (71)申请人 天津理工大 学 地址 300384 天津市西青区 宾水西道391号 (72)发明人 沈丛 杨甜 东天宇 幸高松  陆星元 袁甜甜 陈胜勇  (51)Int.Cl. G06V 40/10(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/762(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于ResNet 34网络-注意力机制的连续手语 识别方法及装置 (57)摘要 本发明提供了一种基于ResNet34网络 ‑注意 力机制的连续手语识别方法及装置, 涉及人工智 能识别技术领域, 包括: S1: 获取第一视频数据训 练集, 并采用KFE聚类算法获取第二视频数据训 练集, S2: 构建ResNet34网络拓扑, 将PSA通道注 意力机制和RCC空间注意力机制融合成PR注意力 机制, 并与ResNet 34网络拓 扑进行集成以提取第 二视频数据集的特征信息; S3: 构建BiLSTM网络 拓扑以对第二视频数据集的特征信息进行编码, 采用LSTM ‑CTC端对端网络结构拓扑以对编码后 第二视频数据集进行解码; S4: 构建目标函数, 以 对ResNet34网络拓扑与PR注意力机制集成后的 网络拓扑参数、 BiLSTM网络拓扑参数以及LSTM ‑ CTC端对端网络结构拓扑参数进行调整。 本发明 可以缓解现有技术中视频冗余造成的神经网络 结构过度拟合的技 术问题。 权利要求书4页 说明书14页 附图3页 CN 114943990 A 2022.08.26 CN 114943990 A 1.一种基于ResNet34网络 ‑注意力机制的连续手 语识别方法, 其特 征在于, 包括: S1: 获取第一视频数据训练集, 所述第一视频数据集包括RGB视频以及深度视频, 并采 用KFE聚类算法提取所述第一视频数据训练集的关键帧以获取第二视频数据训练集, 所述 第二视频 数据训练集具有标签; S2: 构建ResNet34网络拓扑, 将PSA通道注意力机制和RCC空间注意力机制融合成PR注 意力机制, 并将PR注 意力机制与所述 ResNet34网络拓扑进 行集成以提取所述第二视频数据 集的特征信息; S3: 构建BiLSTM网络拓扑以对所述第二视频数据集的特征信息进行编码, 采用LSTM ‑ CTC端对端网络结构拓扑以及所述第二视频数据训练集的标签对编 码后所述第二视频数据 集进行解码; S4: 构建目标函数, 以对所述ResNet34网络拓扑与所述PR注意力机制集成后的网络拓 扑参数、 所述Bi LSTM网络 拓扑参数以及所述 LSTM‑CTC端对端网络结构拓扑参数进行调整。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取第一视频数据测试集, 对构 建完成的所述ResNet34网络拓扑与所述PR注意力机制 集成后的网络拓扑、 所述BiLSTM网络拓扑以及所述LSTM ‑CTC端对端网络结构拓扑进行测 试。 3.根据权利要求1所述的方法, 其特征在于, 所述采用KFE聚类算法提取所述第一视频 数据训练集的关键帧以获取第二视频 数据训练集的步骤 包括: 获取初始阈值、 所述第一视频 数据训练集的帧集 合、 所有簇的簇质心; 基于所述第 一视频数据训练集的帧集合获取所述第 一视频数据训练集的帧, 并基于所 述所有簇的簇质心以获取 所述第一视频 数据训练集的帧到 簇质心的最近距离; 判定所述第一视频 数据训练集的帧到 簇质心的最近距离是否小于初始阈值; 若是, 则将所述第一视频数据训练集的帧归至最近距离的簇质心 的类中, 将所述第一 视频数据训练集的帧从所述第一视频数据训练集的帧集合剔除, 并执行所述获取初始阈 值、 所述第一视频 数据训练集的帧集 合、 所有簇的簇质心的步骤; 若否, 则将所述第一视频数据训练集的帧定义归至新的类别, 将所述第一视频数据训 练集的帧从所述第一视频数据训练集的帧集合剔除, 并执行所述获取初始阈值、 所述第一 视频数据训练集的帧集 合、 所有簇的簇质心的步骤。 4.根据权利要求1所述的方法, 其特征在于, 所述ResNet34网络拓扑包括初始层、 第一 残差层、 第二残差层、 第三残差层、 第四残差层以及全局平均池化层; 所述第一残差层的卷积核数为64, 所述第一残差层的数量 为3; 所述第二残差层的卷积核数为128, 所述第二残差层的数量 为4; 所述第三残差层的卷积核数为25 6, 所述第三残差层的数量 为6; 所述第四残差层的卷积核数为512, 所述第四残差层的数量 为3; 将PR注意力机制与所述ResNet34网络 拓扑进行集成的步骤 包括: 将所述第四残差层与全局平均池化层间引入所述PR注意力机制。 5.根据权利 要求4所述的方法, 其特征在于, 所述将PSA通道注意力机制和RCC空间注意 力机制融合成PR注意力机制的步骤中, 其中所述P SA通道注意力机制为: [X0, X1,…, XS‑1]=Split(X);权 利 要 求 书 1/4 页 2 CN 114943990 A 2Fi=Conv(Ki×Ki, Gi)(Xi); F=Cat([F0, F1,…, FS‑1]); X∈RC×W×H‑所述第二视频训练集经过ResNet34网络前四个残差层计算后得到的第一特 征图; C, W和H‑第一特征图的通道、 宽度和高度; Split‑在通道维度上对第一特 征图X∈RC×W×H进行平等划分成S份的操作; Xi∈RC/S×W×H‑所述第一特 征图经过平等划分后的特 征图, 其通道为C/S; Ki‑不同卷积核参数; Gi‑分组卷积的参数; Fi∈RC/S×W×H‑经过多尺度特 征提取后的多尺度特 征; Cat‑在通道维度上拼接不同感受野下的多尺度特 征; F∈RC×W×H‑多尺度特 征拼接后的特 征向量; 采用如下公式对所述多尺度特 征拼接后的特 征向量进行权值 提取: gi=AvgPool(Fi); Zi=σ(W1δ(W0(gi))); Z=Cat([Z0, Z1,…, ZS‑1]); AvgPool(·)‑代表了全局平均池化; σ(·)是sigmo id激活函数; δ(·)是ReLU激活函数; gi∈RC/S×1×1‑对多尺度特 征进行全局平均池化的特 征向量; W0和W1分别是维度为[C /S/r, C/S], [C/S, C/S/r]的权 重矩阵, 其中r 代表为减小率; Zi‑维度为[C /S, 1, 1]的不同部分注意力权值; Z‑维度为[C, 1, 1]的跨维度的通道 注意力特 征权重图; 采用如下公式对所得注意力 权值进行归一化, 并将权值与经过多尺度 特征提取的特征 向量做张量积的操作: att=Softmax(Z); Y=att⊙F; att‑归一化后的通道 注意力权值。 所述RCC注意力机制是将Criss ‑Cross模块串联两次从而获得丰富的上下文信息, 其 中 Criss‑Cross通道注意力机制为: Q=WQY; K=WKY; V=WVY; WQ和WK均是维度为[C ′, C]的权重矩阵; WV是维度为[C, C]的权 重矩阵; 并采用如下公式将PR注意力机制与所述ResNet34网络拓扑进行集成以提取所述第二 视频数据集的特 征信息: 进行Affinity操作以获取大小为[W, H]的特征图中每一个像素点与其同行同列像素点 的关系:权 利 要 求 书 2/4 页 3 CN 114943990 A 3

.PDF文档 专利 基于ResNet34网络-注意力机制的连续手语识别方法及装置

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于ResNet34网络-注意力机制的连续手语识别方法及装置 第 1 页 专利 基于ResNet34网络-注意力机制的连续手语识别方法及装置 第 2 页 专利 基于ResNet34网络-注意力机制的连续手语识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:57:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。