行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221047257 7.7 (22)申请日 2022.04.29 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 沈一鸥 梁志伟 高翔 付羽佳  (74)专利代理 机构 南京苏科专利代理有限责任 公司 32102 专利代理师 姚姣阳 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 基于自适应 近端优化的机 器人动作方法 (57)摘要 一种基于自适应近端优化的机器人动作方 法, 包括如下步骤, 步骤S1.开始执行仿真训练任 务, 判断机器人数据迭代次数是否达到要求次 数, 若没有达到, 则重置机器人到一个初始 状态, 使用策略运行机器人进行T步或达到目标状态, 若达到, 则使用来自当前迭代过程中的k组数据 训练critical网络; 步骤S2.使用GAE估 算优势函 数值, 忽视优势函数值中为负的数据或将其转换 为正值; 步骤S3.使用过去H组迭代数据和损失函 数获取k组数据训练策略方差; 步骤S4.使用当前 迭代数据和损失函数获取k组数据训练策略均 值。 本方法在训练速度上的提升对于实际的动作 训练帮助巨大。 在执行三维连续动作的任务时稳 定性明显优于其 他方法。 权利要求书1页 说明书7页 附图3页 CN 114905510 A 2022.08.16 CN 114905510 A 1.基于自适应近端优化的机器人动作方法, 其特 征在于, 包括如下步骤, 步骤S1.开始执行仿真训练任务, 判断机器人数据迭代次数是否达到要求 次数, 若没有 达到, 则重置机器人到一个初始状态, 使用策略运行机器人进行T步或达到目标状态, 若达 到, 则使用来自当前迭代过程中的k组数据训练critical网络; 步骤S2.使用GAE估算优势函数值, 忽视优势函数值 为负的数据或将其 转换为正值; 步骤S3.使用过去H组迭代数据和损失函数获取k组数据训练策略方差; 步骤S4.使用当前迭代数据和损失函数获取k组数据训练策略均值。 2.根据权利要求1所述的基于自适应近端优化的机器人动作 方法, 其特征在于, 仿真训 练的服务项目为Robocup  3d足球, 其主体环境基于Simspark生成, 采用ODE引擎在50Hz的频 率下运行, Simspar k环境中提供了以实体Nao机器人为参照的仿真模 型; 该机器人拥有22个 自由度, 其中腿部 关节拥有 7个自由度, 手部 关节有4个, 脖颈有2个; 各关节所能达到的最大 角速度为每20毫秒7.02度, 由于仿真服务器的更新频率为50Hz, 在没有接受到agent发出的 信号时默认其以前一个信号周期的状态运行, 对于单个机器人, 从自身 改变参数并给服务 器发出信号到 接受到服 务器返回的信号 最快为40ms, 即两个信号周期。 3.根据权利要求1所述的基于自适应近端优化的机器人动作 方法, 其特征在于, 策略为 自适应近端策略, 在时间t时, agent观测到状态矩阵st并采取动作at~πθ(at|st), 其中πθ为 策略, 执行动 作之后与环境的交互生成新的观测值st并收到反馈rt, 优化的最终目标为获取 使累计奖励和 达到最大数值的θ, 其中γ为[0, 1]中的任意数值, γ越低表示学 习过程越偏向于速度, 反之则允许较长时间的过程; PPO ‑CMA在每一次的迭代过程中都生 成 出进程, 收集 “经验”[si, ai, ri, si]。 在每一个迭代中, 初始状态s0满足一个独 立的稳定分布, 逐步优化 直到到达目标状态或是最大的进程长度。 4.根据权利要求1所述的基于自适应近端优化的机器人动作 方法, 其特征在于, 策略梯 度采用GAE, 梯度 PPO中策略梯度损失为 其中, i为最小批采样索引, M为最小批采样大小, Aπ(si, ai)为优势函数, 用来估测在状态si 时采取的动作ai; 正的Aπ表示动作优于平均 水准; 使用高斯策略处理连续动作空间, 策略网 络生成状态的均值μθ(s)和协方差Cθ(s)来采样动作, 动作空间的分布符合正态分布即为 将协方差矩阵简化 为对角矩阵, 则为 设当前策略均值 μ(si)的优势函数为线 性函数, 则可以将 优势函数值为负的动作镜像为 正值的动作, 则 其中, 为高斯核函数, 给 远离均值的动作分配更低的权值。权 利 要 求 书 1/1 页 2 CN 114905510 A 2基于自适应近端优化的机 器人动作方 法 技术领域 [0001]本发明属于仿真机器人技术领域, 具体涉及一种基于自适应近端优化的机器人动 作方法。 背景技术 [0002]在近几十年的机器人研究领域, 行为学习起到了至关重要的作用。 尤其在机器人 世界杯中, 全球各地的参赛队伍都将遗传学习算法应用于机器人模型 的参数学习, 试图建 立自由行为模型。 然而在 模型的自由行为方面, 特别是自由行走训练仍存在很大的局限性: 学习获得的行为很难被当前的观测值和机器人状态所约束; 在学习过程中依旧容易重复失 败的先例。 [0003]强化学习则没有这方面的诸多缺点, 即使被限制在较小的观测空间和行为空间下 依旧有良好的表现。 深度强化学习算法(DRL)在大样本的连续观测空间或是连续动作空间 的训练中展现出其他算法难以匹敌的优秀性能。 例如离线策略算法DDPG、 DQN 或是在线策略 算法A2C、 PPO。 这些算法在实际竞技运动中的实践也初见成效: 例如星际争霸中进行人工智 能的多线操作; DOTA 2中战胜人类职业选手。 [0004]尽管深度学习算法在机器人训练中的应用十分广泛, 但其训练效率仍无法满足预 期, 并且对于硬件的要求也在逐年上升。 同时, 还存在着诸如在训练环境的取得良好效果的 参数在真正的仿真环 境中无法实现等问题。 本文意在通过调整算法中的细节操作来改善仿 真机器人的训练效率, 缩小同一 参数在不同环境下的表现差距。 发明内容 [0005]本发明所要解决的技术问题是克服现有技术的不足, 提供一种基于自适应近端优 化的机器人动作方法, 通过调整算法中的细节操作来改善仿真机器人 的训练效率, 缩小同 一参数在不同环境下的表现差距。 [0006]本发明提供一种基于自适应近端优化的机器人动作方法, 包括如下步骤, [0007]步骤S1.开始 执行仿真训练任务, 判断机器人数据 迭代次数是否达到要求次数, 若 没有达到, 则重置机器人到一个初始状态, 使用策略运行机器人进行T步或达到目标状态, 若达到, 则使用来自当前迭代过程中的k组数据训练critical网络; [0008]步骤S2.使用GAE估算优势函数值, 忽视优势函数值中为负的数据或将其转换为正 值; [0009]步骤S3.使用过去H组迭代数据和损失函数获取k组数据训练策略方差; [0010]步骤S4.使用当前迭代数据和损失函数获取k组数据训练策略均值。 [0011]作为本发明的进一步技术方案, 仿真训练的服务项目为Robocup  3d足球, 其主体 环境基于Simspar k生成, 采用ODE引擎在50Hz的频率下运行, Simspar k环境中提供了以实体 Nao机器人为参照的仿 真模型; 该机器人拥有22个自由度, 其中腿部 关节拥有 7个自由度, 手 部关节有4个, 脖颈有2个; 各关节所能达到的最大角速度为每20毫秒7.02度, 由于仿真服务说 明 书 1/7 页 3 CN 114905510 A 3

.PDF文档 专利 基于自适应近端优化的机器人动作方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于自适应近端优化的机器人动作方法 第 1 页 专利 基于自适应近端优化的机器人动作方法 第 2 页 专利 基于自适应近端优化的机器人动作方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:24:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。