专利文本描述的生成方法、装置、终端及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211137736.4 (22)申请日 2022.09.19 (71)申请人 OPPO广东移动通信有限公司地址 523860 广东省东莞市长安镇乌沙海滨路18号 (72)发明人陈科鑫　张晓帆　 (74)专利代理机构北京三高永信知识产权代理有限责任公司 1 1138 专利代理师邢惠童 (51)Int.Cl. G06F 9/451(2018.01) G06F 40/126(2020.01) G06F 40/146(2020.01) G06F 40/279(2020.01) (54)发明名称文本描述的生成方法、装置、终端及存储介质 (57)摘要本申请实施例公开了一种文本描述的生成方法、装置、终端及存储介质，属于人机交互领域。该方法包括：获取人机交互界面中界面控件的多模态信息；对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码；对不同模态信息各自对应的所述模态编码进行模态融合，得到多模态编码；基于所述多模态编码生成所述界面控件的功能文本描述。采用本申请实施例提供的方案，终端能够在进行人机交互时基于人机交互界面中的控件，生成人机交互界面中控件的文本描述，有益于提高终端基于用户指令在显示界面进行操作的准确性。权利要求书4页说明书15页附图8页 CN 115454554 A 2022.12.09 CN 115454554 A 1.一种文本描述的生成方法，其特征在于，所述方法包括：获取人机交互界面中界面控件的多模态信息，所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种，所述结构化模态信息用于表征所述界面控件在所述人机交互界面中的层次结构；对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码；对不同模态信息各自对应的所述模态编码进行模态融合，得到多模态编码；基于所述多模态编码生成所述界面控件的功能文本描述。 2.根据权利要求1所述的方法，其特征在于，所述获取人机交互界面中界面控件的多模态信息，包括：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的所述界面控件构成；基于所述控件树获取所述界面控件的所述多模态信息。 3.根据权利要求2所述的方法，其特征在于，所述多模态信息包括所述文本模态信息；所述基于所述控件树获取所述界面控件的所述多模态信息，包括：从所述控件树中所述界面控件对应的控件信息中提取文本属性，所述文本属性包括显性文本属性和隐性文本属性中的至少一种；将所述文本属性确定为所述界面控件的所述文本模态信息。 4.根据权利要求3所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：对所述文本属性进行分词处理，得到分词文本；对各个所述分词文本对应的词向量的进行滑动池化处理，得到所述文本模态信息对应的文本词向量。 5.根据权利要求2所述的方法，其特征在于，所述多模态信息包括所述图像模态信息；所述基于所述控件树获取所述界面控件的所述多模态信息，包括：从所述控件树中所述界面控件对应的控件信息中提取控件坐标；基于所述控件坐标，从所述人机交互界面中截取所述界面控件的控件图像；将所述控件图像确定为所述界面控件的所述图像模态信息。 6.根据权利要求5所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：对所述控件图像进行缩放处理；通过图像特征提取网络对缩放处理后的所述控件图像进行特征提取，得到所述图像模态信息对应的图像特征向量，其中，缩放处理后的所述控件图像符合所述图像特征提取网络的输入要求。 7.根据权利要求2所述的方法，其特征在于，所述多模态信息包括所述结构化模态信息；所述基于所述控件树获取所述界面控件的所述多模态信息，包括：从所述控件树中所述界面控件对应的控件信息中提取控件属性，所述控件属性包括类型属性、点击属性和状态属性中的至少一种，所述点击属性用于表征所述界面控件是否支持点击，所述状态属性用于表征所述界面控件是否被聚焦；权　利　要　求　书 1/4 页 2 CN 115454554 A 2从所述控件树中所述界面控件对应的控件信息中提取控件坐标；基于所述控件树的拓扑结构，确定所述界面控件在所述控件树中的控件层级位置；将所述控件属性、所述控件坐标以及所述控件层级位置，确定为所述界面控件的所述结构化模态信息。 8.根据权利要求7所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：采用二值化或独热编码方式对所述控件属性进行编码，得到属性编码；基于所述控件坐标生成坐标位置编码，所述坐标位置编码包括绝对位置编码和相对位置编码中的至少一种；采用独热式编码方式对不同遍历方式对应的所述控件层级位置进行编码，得到不同遍历方式对应的拓扑位置编码，所述遍历方式包括先序遍历、中序遍历以及后序遍历；对不同遍历方式对应的所述拓扑位置编码进行编码融合，得到目标拓扑位置编码；对所述属性编码、所述坐标位置编码以及所述目标拓扑位置编码进行拼接，得到所述结构化模态信息对应的结构化编码。 9.根据权利要求1所述的方法，其特征在于，所述基于所述多模态编码生成所述界面控件的功能文本描述，包括：将所述多模态编码输入Transformer模型，得到所述Transformer模型输出的所述功能文本描述，所述Tr ansformer模型基于样本界面控件对应的样本多模态编码以及样本功能文本描述训练得到。 10.根据权利要求1所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：基于设备处理性能和/或人机交互场景确定目标多模态信息；对所述目标多模态信息进行信息编码，得到所述目标多模态信息中不同模态信息各自对应的所述模态编码。 11.根据权利要求10所述的方法，其特征在于，所述目标多模态信息对应编码方式的处理性能需求与所述设备处理性能呈正相关关系；所述目标多模态信息的模态类型数量与所述人机交互场景的交互准确率需求呈正相关关系。 12.一种文本描述的生成装置，其特征在于，所述装置包括：信息获取模块，用于获取人机交互界面中界面控件的多模态信息，所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种，所述结构化模态信息用于表征所述界面控件在所述人机交互界面中的层次结构；信息编码模块，用于对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码；模态融合模块，用于对不同模态信息各自对应的所述模态编码进行模态融合，得到多模态编码；文本生成模块，用于基于所述多模态编码生成所述界面控件的功能文本描述。 13.根据权利要求12所述的装置，其特征在于，所述信息获取模块，包括：权　利　要　求　书 2/4 页 3 CN 115454554 A 3

专利 文本描述的生成方法、装置、终端及存储介质

专利文本描述的生成方法、装置、终端及存储介质