专利一种空中书写文本输入方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210445233.7 (22)申请日 2022.04.26 (71)申请人辽宁科技大学地址 114051 辽宁省鞍山市高新区千山路 185号 (72)发明人巩荣芬　刘淑明　储茂祥　刘历铭　焦玉鹏　 (74)专利代理机构鞍山嘉讯科技专利事务所 (普通合伙) 21224 专利代理师张群 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01) G06V 10/44(2022.01)G06V 30/18(2022.01) G06F 3/01(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/82(2022.01) (54)发明名称一种空中书写文本输入方法及装置 (57)摘要本发明提供一种空中书写文本输入方法及装置，使用手持的书写棒在空中书写文字，利用具有显示屏与摄像头的嵌入式平台装置采集并显示书写过程，通过目标跟踪、文本识别等方法实现包含数字、符号和英文三种文字类型的文本输入，以满足无接触、便捷的人机交互。包括：初始化空中书写文本输入系统；手持书写棒进入摄像头监视的空中区域并移动书写棒到跟踪框中；利用目标跟踪模型跟踪书写棒，确定当前跟踪框的位置；判断是否切换输入文字类型；利用书写棒在空中书写文字，并生成文字图像；利用文字识别模型识别文字图像识别出文字；增加文字显示；判断是否清除增加显示的文字；清除增加显示的文字；判断文本中所有文字的输入是否结束。权利要求书3页说明书12页附图7页 CN 114821782 A 2022.07.29 CN 114821782 A 1.一种空中书写文本输入方法，其特征在于，包括如下步骤：步骤1：初始化空中书写文本输入系统；步骤2：手持书写棒进入摄像头监视的空中区域，并移动书写棒到跟踪框中；步骤3：利用目标跟踪模型跟踪书写棒，确定当前跟踪框的位置；步骤4：判断是否切换输入文字类型，如果是则转到步骤5，如果否则转到步骤6；步骤5：切换输入文字类型；步骤6：利用书写棒在空中书写文字，并生成文字图像；步骤7：利用文字识别模型识别文字图像，识别出文字；步骤8：增加文字显示；步骤9：判断是否清除增加显示的文字，如果是则转到步骤10，如果否则转到步骤1 1；步骤10：清除增加显示的文字；步骤11：判断文本中所有文字的输入是否结束，如果是则结束，如果否则转到步骤4。 2.根据权利要求1所述的一种空中书写文本输入方法，其特征在于，所述的步骤1中，初始化空中书写文本输入系统包括步骤如下：步骤1‑1：初始化显示屏上的操作窗和跟踪框；步骤1‑2：初始化输入文字类型；步骤1‑3：加载与输入文字类型相匹配的文字识别模型参数；步骤1‑4：加载目标跟踪模型参数。 3.根据权利要求2所述的一种空中书写文本输入方法，其特征在于，所述的步骤1 ‑3中，文字识别模型采用新设计的网络，具体包括如下：文字识别模型包括文字图像、特征提取网络、分类网络和输出类别，文字图像是模型的输入，文字图像包含待识别的完整图和二值图，特征提取网络提取文字图像的深度特征，特征提取网络包括卷积层、 Bi ‑CNN层、平均池化层、 Bi ‑CNN层和平均池化层，卷积层对文字图像完整图和二值图分别进行通道扩充， Bi ‑CNN层由并行的常规卷积和空洞卷积后接通道拼接组成，第一个Bi ‑CNN层对文字图像二值图的通道特征图进行常规卷积，第一个Bi ‑CNN层对文字图像完整图的通道扩充图进行空洞卷积，第一个Bi ‑CNN层对常规卷积和空洞卷积后的两个特征图进行通道拼接，第二个Bi ‑CNN层对上一层的特征图分别进行常规卷积和空洞卷积，第二个Bi ‑CNN层对常规卷积和空洞卷积后的两个特征图进行通道拼接，两个平均池化层都对通道拼接后的特征图进行尺寸压缩，分类网络用于文字的分类识别，分类网络由两个全连接层组成，输出类别是文字图像识别的结果；当输入文字类型是数字时，文字识别模型的输出类别是0 ‑9，类别数目是10；当输入文字类型是符号时，文字识别模型的输出类别是常用的符号，类别数是38；当输入文字类型是英文时，文字识别模型的输出类别是大写和小写的英文字符，类别数是52；文字识别模型采用新的双图并行输入网络结构，文字识别模型识别的是数字、符号和英文三种类型的书写体文字，文字识别模型融合文字图像完整图的全局特征和文字图像二值图的局部特征，文字识别模型降低背景信息对特征提取网络的影响。 4.根据权利要求1所述的一种空中书写文本输入方法，其特征在于，所述的步骤3 中，利用目标跟踪模型跟踪书写棒包括步骤如下：权　利　要　求　书 1/3 页 2 CN 114821782 A 2步骤3‑1：读取书写棒模板图像；步骤3‑2：根据跟踪框的位置提取书写棒搜索图像；步骤3‑3：调用目标跟踪模型SiamFC 网络，计算书写棒的模板图像与搜索图像之间的响应图；步骤3‑4：根据书写棒响应图确定当前跟踪框的位置。 5.根据权利要求1所述的一种空中书写文本输入方法，其特征在于，所述的步骤4中，判断是否切换文字类型的过程如下：根据当前跟踪框的位置，判断书写棒是否处于操作窗类型区的位置，如果是则需要切换输入文字类型，如果否则不需要切换输入文字类型。 6.根据权利要求1所述的一种空中书写文本输入方法，其特征在于，所述的步骤5 中，切换输入文字类型的过程如下：根据当前跟踪框的位置，确定书写棒位于数字、符号和英文三个子区中的一个；设定新的输入文字为此子区的类型；加载与新的输入文字类型相匹配的文字识别模型参数。 7.根据权利要求1所述的一种空中书写文本输入方法，其特征在于，所述的步骤6 中，空中书写文字并生成文字图像包括步骤如下：步骤6‑1：备份跟踪框的位置；步骤6‑2：在操作窗书写区对应的空中区域，移动书写棒；步骤6‑3：调用目标跟踪模型SiamFC 网络，确定当前跟踪框相对于备份跟踪框移动的轨迹；步骤6‑4：在操作窗书写区直接绘制出跟踪框移动的轨迹；步骤6‑5：重复上述步骤，绘制书写过程跟踪框全部的移动轨迹；步骤6‑6：手指遮挡书写棒；步骤6‑7：提取当前目标跟踪模型SiamFC 网络中的响应图最大值，当响应图最大值小于阈值时结束文字书写操作；步骤6‑8：提取操作窗书写区绘制的轨迹，生成文字图像，包括完整图和二值图。 8.根据权利要求1所述的一种空中书写文本输入方法，其特征在于，所述的步骤9判断是否清除增加显示的文字的过程如下：调用目标跟踪模型SiamFC网络，确定当前跟踪框的位置；根据当前跟踪框的位置，判断书写棒是否处于操作窗执行区的清除子区，如果是则需要清除增加显示的文字，如果否则不需要清除。 9.根据权利要求1所述的一种空中书写文本输入方法，其特征在于，所述的步骤11判断文本中所有文字的输入是否结束的过程如下：调用目标跟踪模型SiamFC网络，确定当前跟踪框的位置；根据当前跟踪框的位置，判断书写棒是否处于操作窗执行区的结束子区，如果是则结束文本输入，如果否则可以继续文本输入。 10.一种应用权利要求1所述的一种空中书写文本输入方法的空中书写文本输入装置，包括如下模块：摄像头模块：用于实时采集书写棒在空中的书写、操作视频；权　利　要　求　书 2/3 页 3 CN 114821782 A 3

专利 一种空中书写文本输入方法及装置

专利一种空中书写文本输入方法及装置