行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210599743.X (22)申请日 2022.05.30 (71)申请人 兰州大学 地址 730000 甘肃省兰州市城关区天水南 路222号 (72)发明人 阎石 赵东东 李艺昌 周兴文  李弘历  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 黄广龙 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 模型训练方法和装置、 策略优化方法、 设备 及介质 (57)摘要 本发明公开了一种模 型训练方法和装置、 策 略优化方法、 设备及介质, 所述方法包括: 获取机 械臂的训练数据集合; 其中, 所述训练数据集合 包括: 电压训练数据、 位姿训练数据、 训练策略, 所述电压训练数据作为强化学习的环 境, 所述训 练策略作为强化学习的动作; 根据预设的动力学 分析算法对 所述训练数据集合进行模 型构建, 得 到原始机械臂模 型; 将所述原始机械臂模型输入 预设的神经网络模型进行线性变换处理, 得到初 始机械臂模 型; 根据预设的奖励函数对所述初始 机械臂模型进行更新处理, 得到目标机械臂模 型。 本发明申请能够使 得目标机械臂模型构建简 易, 提高机 械臂的强化学习的效率。 权利要求书2页 说明书12页 附图4页 CN 114939870 A 2022.08.26 CN 114939870 A 1.一种模型训练方法, 其特 征在于, 所述方法包括: 获取机械臂的训练数据集合; 其中, 所述训练数据集合包括: 电压训练数据、 位姿训练 数据、 训练策略, 所述电压训练数据作为 强化学习的环境, 所述训练策略作为 强化学习的动 作; 根据预设的动力学分析算法对所述训练数据集合进行模型构建, 得到原始机械臂模 型; 将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理, 得到初始机械臂 模型; 根据预设的奖励函数对所述初始机 械臂模型进行 更新处理, 得到目标机 械臂模型。 2.根据权利要求1所述的模型训练方法, 其特征在于, 所述动力学分析算法为Koopman 算法, 所述根据预设的动力学分析算法对所述训练数据集合进行模型构建, 得到原始机械 臂模型, 包括: 根据所述Koopman算法对所述电压训练数据、 所述位姿训练数据和所述训练策略进行 模型构建, 得到所述原 始机械臂模型; 其中, 所述原 始机械臂模型 具体如下: Zk+1=AZk+Buk Zk= ψ(xk) 式中, 为电压训练数据, Zk=ψ(xk)表示升维函数, uk表示训练策略, 为位 姿训练数据。 3.根据权利要求1所述的模型训练方法, 其特征在于, 所述神经网络模型包括: 编码器、 解码器; 所述将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理, 得到初 始机械臂模型, 包括: 通过所述编码器根据 所述奖励函数对所述原始机械臂模型进行编码处理, 得到编码数 据; 通过所述解码器根据所述编码数据进行模型重构处理, 得到所述初始机械臂模型; 其 中, 所述初始机 械臂模型为线性模型。 4.根据权利要求3所述的模型训练方法, 其特征在于, 所述编码器包括: 第 一全连接层、 第一激活层、 第二全连接层、 第二激活层、 第三全连接层和 第三激活层; 所述解码 器包括: 第 四全连接层、 第四激活层、 第五全连接层、 第五激活层、 第六激活层和 第六全连接层, 所述第 一激活层、 所述第二激活层、 所述第五激活层和所述第六激活层为PRelu层, 所述第三激活 层和所述第四激活层为Tanh层。 5.一种策略优化方法, 其特 征在于, 所述方法包括: 获取电压预测数据, 并将所述电压预测数据输入至所述目标机械臂模型, 得到初始控 制策略; 其中, 所述目标机 械臂模型如权利要求1至4任一项所述的训练方法训练得到; 根据预设优化 算法对所述初始控制策略进行优化处 理, 得到目标控制策略。 6.根据权利要求5所述的策略优化方法, 其特征在于, 所述目标机械臂模型包括: 目标 强化模型和目标动力学模型; 所述获取电压预测数据, 并将所述电压预测数据输入至所述 目标机械臂模型, 得到初始控制策略, 包括:权 利 要 求 书 1/2 页 2 CN 114939870 A 2获取电压预测数据, 并将所述电压预测数据输入所述目标强化模型, 得到预测位姿数 据; 将所述预测位姿数据输入至所述目标动力学模型, 得到目标控制策略。 7.根据权利要求5所述的策略优化方法, 其特征在于, 所述预设优化算法包括: 预设代 价算法和 递归微分算法; 所述根据预设优化算法对所述初始控制策略进行优化处理, 得到 目标控制策略, 包括: 根据所述预设代价 算法对所述初始控制策略进行构建, 得到代价方程; 根据所述 递归微分算法对所述代价方程进行求 解处理, 得到所述目标控制策略。 8.一种模型训练装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取机械臂的训练数据集合; 其中, 所述训练数据集合包括: 电压训练 数据、 位姿训练数据、 训练策略, 所述电压训练数据作为强化学习的环境, 所述训练策略作 为强化学习的动作; 构建模块, 用于根据预设的动力学分析算法对所述训练数据集合进行模型构建, 得到 原始机械臂模型; 变换模块, 用于将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理, 得到初始机 械臂模型; 更新模块, 用于根据预设的奖励函数对所述初始机械臂模型进行更新处理, 得到目标 机械臂模型。 9.一种电子设备, 其特 征在于, 包括: 至少一个处 理器, 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处理器能够执行如权利要求1至4任一项所述的模型训练方 法, 或如权利要求5 至7任一项所述的策略优化方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机可 执行指令, 所述计算机可执行指 令用于使计算机执行如权利要求 1至4任一项 所述的模型训 练方法, 或如权利要求5 至7任一项所述的策略优化方法。权 利 要 求 书 2/2 页 3 CN 114939870 A 3

.PDF文档 专利 模型训练方法和装置、策略优化方法、设备及介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练方法和装置、策略优化方法、设备及介质 第 1 页 专利 模型训练方法和装置、策略优化方法、设备及介质 第 2 页 专利 模型训练方法和装置、策略优化方法、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:26:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。