行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210800582.6 (22)申请日 2022.07.06 (71)申请人 重庆软江图灵人工智能科技有限公 司 地址 400000 重庆市江北区西环路8号1幢 12-1至12-12 (72)发明人 陈强  (74)专利代理 机构 成都顶峰专利事务所(普通 合伙) 51224 专利代理师 李崧岩 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) G06V 10/762(2022.01) (54)发明名称 基于深度学习的文字语义识别方法、 系统、 介质及设备 (57)摘要 本发明涉及一种基于深度学习的文字语义 识别方法、 系统、 介质及设备, 通过对字幕信息进 行分词处理, 获得单词, 并从视频流中提取与单 词共同存在的目标图像队列, 图像队列包括一帧 或者多帧目标图像; 根据预先建立的图像识别模 型对目标图像进行识别, 获得图像识别结果; 将 图像识别结果与单词进行匹配, 并在图像识别结 果与单词匹配的情况下, 将图像识别结果作为单 词的识别结果。 本发明满足对视频流中的单词进 行语义识别, 同时将视频流中的目标图像进行获 取, 将目标图像作为单词的识别结果, 帮助使用 者对单词进行识别。 权利要求书2页 说明书6页 附图1页 CN 115186655 A 2022.10.14 CN 115186655 A 1.一种基于深度学习的文字语义识别方法: 包括 步骤; 获取视频流和视频流中的字幕信息; 对所述字幕信息进行分词处理, 获得单词, 并从所述视频流中提取与所述单词共 同存 在的目标图像队列, 所述图像队列包括 一帧或者多帧目标图像; 根据预先建立的图像识别模型对所述目标图像进行识别, 获得图像识别结果; 将所述图像识别结果与所述单词 进行匹配, 并在所述图像识别结果与 所述单词匹配的 情况下, 将所述图像识别结果作为所述单词的识别结果。 2.根据权利要求1所述的一种基于深度 学习的文字语义识别方法, 其特征在于: 获取视 频流中的字幕信息, 包括: 获取包括文字特 征的训练数据集; 根据所述训练数据集对预 先设置的人工神经网络进行训练, 获得文字识别模型; 从所述视频流中获取图像, 并对所述图像的目标区域进行截取, 获得字幕图像; 将所述字幕图像输入至所述文字识别模型中, 获得字幕信息 。 3.根据权利要求2所述的一种基于深度 学习的文字语义识别方法, 其特征在于: 从所述 视频流中提取与所述单词共同存在的目标图像队列, 包括: 在时间轴上将所述视频流展开, 获得图像队列; 将所述图像队列中的图像输入至所述文字识别模型中, 获得包含所述单词的目标图 像; 将所述目标图像进行聚类, 获得 所述目标图像队列。 4.根据权利要求1所述的一种基于深度 学习的文字语义识别方法, 其特征在于: 根据 预 先建立的图像识别模型对所述目标图像进行识别, 获得图像识别结果: 提取所述目标图像的图像 轮廓特征; 将所述图像 轮廓特征输入至所述图像识别模型中, 获得图像识别结果。 5.根据权利要求4所述的一种基于深度 学习的文字语义识别方法, 其特征在于: 提取所 述目标图像的图像 轮廓特征, 包括: 获取所述目标图像的RGB通道信息, 根据所述RGB通道信息将所述目标图像转换为灰度 图像, 转换公式如下: GRAY(Ai)=(R2.2×0.2937+G2.2×0.6274+B2.2×0.0753)1/2.2 其中, R为像素点Ai的红色值, G为像素点Ai的绿色值, B为像素点Ai的蓝色值; 计算任意两个相邻的像素点Ai和Ai‑1之间的灰度差值GRAY(Ai)‑GRAY(Ai‑1); 当灰度差值GRAY(Ai)‑GRAY(Ai‑1)>α 时, 将像素点Ai和Ai‑1作为轮廓像素点; 将轮廓像素点 合并, 获得 所述图像 轮廓特征。 6.根据权利要求1所述的一种基于深度 学习的文字语义识别方法, 其特征在于: 所述图 像识别模型的建立 步骤包括: 获取包括图像 轮廓特征的图像模板; 利用仿射矩阵对所述图像模板进行仿射变换, 仿射变换的方式包括旋转、 缩放、 随机裁 剪、 平移运算; 以经过仿射变换后的图像模板建立训练数据集; 根据所述训练数据集对预设 设置的人工神经网络进行训练, 获得图像识别模型。权 利 要 求 书 1/2 页 2 CN 115186655 A 27.根据权利要求1所述的一种基于深度 学习的文字语义识别方法, 其特征在于: 将所述 图像识别结果作为所述单词的识别结果之后, 还 包括: 将所述图像识别结果与所述单词 进行关联, 并生成包括所述图像识别结果与 所述单词 的映射数据表; 获取新的单词, 将所述新的单词与所述映射数据表中的单词 匹配时, 将所述单词的图 像识别结果输出, 并作为所述 新的单词的图像识别结果。 8.一种文字语义识别系统, 其特 征在于, 包括: 采集模块, 用于获取视频流、 视频流中的字幕信息; 提取模块, 用于对所述字幕信息进行分词处理, 获得单词, 并从所述视频流中提取与所 述单词共同存在的目标图像队列, 所述图像队列包括 一帧或者多帧目标图像; 识别模块, 用于根据预先建立的图像识别模型对所述目标图像进行识别, 获得图像识 别结果; 匹配模块, 用于将所述图像识别结果与所述单词进行匹配, 并在所述图像识别结果与 所述单词匹配的情况 下, 将所述图像队列中的图像作为所述单词的识别结果。 9.一种存储介质, 其中存储有计算机程序, 其特征在于, 所述计算机程序被处理器加载 执行时, 实现如权利要求1至7中任一所述的一种基于深度学习的文字语义识别方法。 10.一种电子设备, 其特征在于, 包括: 处理器及存储器; 其中, 所述存储器用于存储计 算机程序; 所述处理器用于加载执行所述计算机程序, 以使 所述电子 设备执行如权利要求 1 至7中任一所述的一种基于深度学习的文字语义识别方法。权 利 要 求 书 2/2 页 3 CN 115186655 A 3

.PDF文档 专利 基于深度学习的文字语义识别方法、系统、介质及设备

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度学习的文字语义识别方法、系统、介质及设备 第 1 页 专利 基于深度学习的文字语义识别方法、系统、介质及设备 第 2 页 专利 基于深度学习的文字语义识别方法、系统、介质及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:58:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。