行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221046245 5.X (22)申请日 2022.04.28 (71)申请人 中国电力科 学研究院有限公司 地址 100192 北京市海淀区清河小营东路 15号 申请人 国网安徽省电力有限公司电力科 学 研究院  国网山东省电力公司 (72)发明人 闫冬 陈盛 王新迎 赵琦  谈元鹏 吴凯 郭锐 李勇  许乃媛 李笋  (74)专利代理 机构 北京中巡通大知识产权代理 有限公司 1 1703 专利代理师 张晓凯(51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 机械臂导航避障方法、 系统、 计算机设备及 存储介质 (57)摘要 本发明属于人工智能技术领域, 公开了一种 机械臂导航避障方法、 系统、 计算机设备及存储 介质, 包括: 获取机械臂当前的状态张量; 将机械 臂当前的状态张量输入预设的机械臂导航避障 深度强化学习模 型中, 得到机械臂的决策动作轨 迹; 其中, 所述机械臂导航避障深度强化学习模 型, 基于在模仿学习环境下以导航规划算法作先 验指导进行预训练得到的初始机械臂导航避障 深度强化学习模 型构建得到; 根据机械臂的决策 动作轨迹, 控制机械臂运行。 基于导航规划算法 作先验指导, 使模型具备一定的基础隐性知识, 能够使机械臂适应不同种类的障碍环 境, 能够快 速训练并顺利迁移至实际环境使用, 避免复杂的 奖励体系构建, 极大的提升了训练速度, 降低资 源消耗。 权利要求书3页 说明书12页 附图4页 CN 114603564 A 2022.06.10 CN 114603564 A 1.一种机 械臂导航避障方法, 其特 征在于, 包括: 获取机械臂当前的状态张量; 将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中, 得到机械 臂的决策动作轨迹; 其中, 所述机械臂 导航避障深度强化学习模型, 基于在 模仿学习环境下 以导航规划 算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构 建得到; 根据机械臂的决策动作轨 迹, 控制机 械臂运行。 2.根据权利要求1所述的机械臂导航避障方法, 其特征在于, 所述状态张量包括状态显 式数值信息、 空间隐式特征信息以及机械臂当前时刻及前T个时刻的状态显式时序信息; 其 中, 状态显式时序信息包括机械臂自由度关节角、 机械臂臂体末端位置坐标以及机械臂末 端到目标点的距离; 状态显式数值信息包括 目标点坐标、 目标点是否到达以及机械臂臂体 是否与障碍物发生碰撞; 空间隐式特 征信息包括障碍物在空间分布的平面网格矩阵。 3.根据权利要求1所述的机械臂导航避障方法, 其特征在于, 所述机械臂导航避障深度 强化学习模型通过 下述方法构建得到: 获取在模仿学习环境下, 以导航规划算法作先验指导进行预训练得到的初始机械臂导 航避障深度强化学习模型; 当机械臂导航避障的当前环境与模仿学习环境之间的特征差异小于预设特征差异阈 值时, 根据机械臂 导航避障的当前环境, 基于PPO算法训练初始机械臂 导航避障深度强化学 习模型, 得到预设的机 械臂导航避障深度强化学习模型; 否则, 将初始机械臂导航避障深度强化学习 模型中行动器的输出层替换为初始化全连 接网络模型, 并固定所述行动器中除初始化全连接网络模型 的模型参数外的模型参数, 然 后基于PPO算法训练初始机械臂导航避障深度强化学习模型, 得到预设的机械臂导航避障 深度强化学习模型。 4.根据权利要求3所述的机械臂导航避障方法, 其特征在于, 所述初始机械臂导航避障 深度强化学习模型通过 下述方法构建得到: 基于预设的导航规划算法, 获取模仿学习环境中各预设作业场景下, 机械臂导航避 障 的专家样本; 构建生成器模型, 生成器模型中包括结构相同的新生成器网络和旧生成器网络, 旧生 成器网络的参数由新生成器网络的参数延迟更新得到, 旧生成器网络的参数用于辅助更新 新生成器网络的参数, 新生成器网络以机械臂的状态张量为输入, 以机械臂在当前状态张 量下的决策动作为输出; 构建以机械臂的状态张量和在 当前状态张量下的决策动作为输入, 以当前 决策动作最 终能够实现合理路径规划的概 率值为输出的判别器模型; 构建以机械臂的状态张量为输入, 以机械臂的状态张量的价值函数值为输出的评价器 模型; 基于生成器模型, 获取模仿学习环境中各预设作业场景下, 机械臂导航避 障的生成样 本; 通过所述专家样本和所述生成样本, 训练生成器模型、 判别器模型和评价器模型, 至预 设的训练完成依据条件, 得到训练完成的生成器模型和评价器模型;权 利 要 求 书 1/3 页 2 CN 114603564 A 2构建以机械臂当前的状态张量为输入, 以机械臂的决策动作轨迹为输出的初始深度强 化学习模型, 并采用训练完成的生成器模型替换初始深度强化学习模型中的行动器, 采用 训练完成的评价器模型替换初始深度强化学习模型中的评价器, 得到初始机械臂导航避障 深度强化学习模型。 5.根据权利要求4所述的机械臂导航避 障方法, 其特征在于, 所述训练生成器模型、 判 别器模型和评价器模型时, 生成器模型的目标函数为: 其中, Dω表示判别器模型的输出, ω表示判别器模型的参数, τG 表示生成样本的决策动作轨迹, clip表示将ratio限制在(1 ‑ε,1+ε )范围中, ε表示超参数, π 表示策略函数, θ表示新生成器网络的参数, θold表示旧生成器网络的参数, θ按照预设 的固 定频率更新至θold; 判别器模型的目标函数为: 其中, E表示期望算符, τE表示专家样本的决策动作轨迹, st表示机械臂t时刻的状态张 量, at表示机械臂t时刻的状态张量下的决策动作; 评价器模型的目标函数为: minEτ[(rt(st)+Vφ(st+1)‑Vφ(st))2] 其中, τ表示抽样的生成样本的决策动作轨迹或专家样本的决策动作轨迹, rt机械臂t时 刻的状态张量对应的奖励函数, Vφ表示评价器模型的输出, φ表示评价器模型的参数, st+1 表示机械臂t+1时刻的状态张量。 6.根据权利要求5所述的机械臂导航避障方法, 其特征在于, 所述基于PPO算法训练初 始机械臂导航避障深度强化学习模型时, 初始机械臂导航避障深度强化学习模型中的行动 器的目标函数为: 其中, Aφ(st,at)=rt(st)+Vφ(st+1)‑Vφ(st)。 7.根据权利要求5所述的机械臂导航避 障方法, 其特征在于, 所述机械臂t时刻的状态 张量对应的奖励函数为: 其中, ηn表示机械臂n与障碍物是否发生碰撞, 取值为1时表示发生碰撞, 取值为0时表示 未发生碰撞; ηtar表示目标点是否到达, 取值为1时表示到达, 取值为0时表示未到达; dt表示 机械臂t时刻机械臂末端到目标点的距离; 所述预设的训练完成依据条件为判别器模型的输出收敛于0.5、 判别器模型相邻两次权 利 要 求 书 2/3 页 3 CN 114603564 A 3

.PDF文档 专利 机械臂导航避障方法、系统、计算机设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 机械臂导航避障方法、系统、计算机设备及存储介质 第 1 页 专利 机械臂导航避障方法、系统、计算机设备及存储介质 第 2 页 专利 机械臂导航避障方法、系统、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:26:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。