行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210647458.0 (22)申请日 2022.06.09 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 王杰 李斌 杨睿 耿子介  叶鸣轩 吴枫  (74)专利代理 机构 北京凯特来知识产权代理有 限公司 1 1260 专利代理师 郑立明 付久春 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 基于视觉的机器人的控制方法、 设备及存储 介质 (57)摘要 本发明公开了一种基于视觉的机器人的控 制方法、 设备及存储介质, 该方法包括: 步骤1, 通 过与机器人通信连接的摄像头按预设时间间隔 获取多张包含机器人和环境的图像, 将获取的多 张图像通过强化学习帧栈堆叠得到用于后续控 制的输入图像数据; 步骤2, 使用训练好的卷积特 征编码器对步骤1中得到的输入图像数据进行编 码, 得到一个50维的向量即为T ‑级奖励序列表征 数据; 步骤3, 使用训练好的多层感知决策模型将 步骤2中得到的T ‑级奖励序列表征数据映射为一 个最优动作, 使机器人执行该最优动作来对该机 器人进行最优控制。 该发明能够极大地提升强化 学习算法的泛化能力以缓解未知视觉干扰的影 响, 促进强化学习算法更好 地落地应用。 权利要求书3页 说明书13页 附图5页 CN 114800530 A 2022.07.29 CN 114800530 A 1.一种基于 视觉的机器人的控制方法, 其特 征在于, 包括: 步骤1, 通过与机器人通信连接的摄像头按预设时间间隔获取多张包含机器人和环境 的图像, 将获取的多张图像通过强化学习帧栈堆叠得到用于后续控制的输入图像数据; 步骤2, 使用训练好的卷积特征编码器对所述步骤1中得到的输入图像数据进行编码, 得到一个5 0维的向量即为T ‑级奖励序列表征 数据; 步骤3, 使用训练好的多层感知决策模型将所述步骤2中得到的T ‑级奖励序列表征数据 映射为一个最优动作, 使所述机器人 执行该最优动作来对该机器人进行最优 控制。 2.根据权利要求1所述的基于视觉的机器人的控制方法, 其特征在于, 所述步骤1中, 与 机器人通信连接的摄 像头包括: 机器人内部设置的摄 像头和机器人周边的外 部摄像头; 所述预设时间 间隔为1秒; 多张包含机器人和环境的图像为 三张图像。 3.根据权利要求1或2所述的基于视觉的机器人的控制方法, 其特征在于, 所述方法中, 预先按以下方式对卷积特征编 码器和多层感知决策模型进 行训练, 得到预先训练好的卷积 特征编码 器和多层感知决策模型, 先收集训练启动用的不少于256个输入图像样本、 决策动 作数据和奖励数据, 并按数据收集的时间先后顺序存放在强化学习通用的经验回放池中, 训练过程包括以下步骤: 步骤21, 通过与机器人通信连接的内部摄像头和周边的外部摄像头, 获取包含机器人 和环境的三张图像, 将获取的三张图像通过强化学习帧栈堆叠处 理为一个输入图像样本; 步骤22, 通过作为卷积特征编码器的卷积神经网络, 对所述步骤21中获得的输入图像 样本进行编 码得到相应的输出表征数据, 再以作为多层感知决策模型的多层感知机将所述 卷积特征编 码器的输出表征数据映射为具体控制机器人行为的决策动作数据, 然后按机器 人具体控制任务使用该机器人对应的通用奖励函数计算所述输入图像样本和决策动作数 据对应的奖励数据; 步骤23, 将所述步骤2 1、 22收集的输入图像样本、 决策动作数据和奖励数据按数据收集 的时间先后顺序存放在经验回放池中; 步骤24, 从经验回放池存储 的数据中取出256个输入图像样本、 256个决策动作数据和 256个奖励数据作为一个批数据, 将该批数据里的奖励数据依据数据收集的时间先后顺序 排列成整体奖励序列, 按 预设时长T将整体奖励序列分为多个奖励序列段, 多个奖励序列段 作为一个批次的奖励序列段, 将一个批次的奖励序列段中的每个奖励序列段看作随机变 量, 通过随机变量的特征函数公式以采样的方式计算出一个批次的奖励序列的特征函数采 样值, 每个奖励序列段计算 不少于64次, 得到不少于 64个批次的特 征函数采样值; 步骤25, 以卷积特征编码器对批数据中的输入图像样本的编码作为双头特征函数预测 器的输入, 以对不少于64个批次的特征函数采样值的预测值作为该双头特征函数预测器的 输出, 利用所述步骤23中的批数据和得到的不少于64个批次的特征函数采样值对双头特征 函数预测器进行训练, 在所述双头特征函数预测器训练过程中优化更新卷积特征编码器, 使优化更新的卷积特 征编码器能编码出机器人控制任务所需要的T ‑级奖励序列表征 数据; 步骤26, 用所述步骤24优化更新的卷积特征编码器将所述步骤23的批数据中的输入图 像样本编码为T‑级奖励序列 表征数据, 再用传统强化学习中的策略评估和策略提升以所述 T‑级奖励序列表征 数据为输入, 训练更新多层感知决策模型;权 利 要 求 书 1/3 页 2 CN 114800530 A 2步骤27, 重复所述步骤21至27的操作, 直到经验回放池中的数据量超出预设的训练结 束数据量后结束训练。 4.根据权利要求3所述的基于视觉的机器人的控制方法, 其特征在于, 所述方法中, 训 练开始前, 按以下方式 收集训练启动用的不少于256个输入图像样本、 决策动作数据和奖励 数据, 并按数据收集的时间先后顺序存放在强化学习通用的经验回放池中, 包括: 步骤201, 通过与机器人通信连接的内部摄像头和周边的外部摄像头, 获取包含机器人 和环境的三张图像, 将获取的三张图像通过强化学习帧栈堆叠处 理为一个输入图像样本; 步骤202, 使用初始化的卷积神经网络作为卷积特征编码器, 对所述步骤21中获得的输 入图像样本进 行编码得到相应的输出表征数据, 再以初始化后的多层感知机作为多层感知 决策模型, 将所述卷积特征编 码器的输出表征数据映射为具体控制机器人行为的决策动作 数据, 然后按机器人具体控制任务使用该机器人对应的通用奖励函数计算所述输入图像样 本和决策动作数据对应的奖励数据; 步骤203, 重复所述步骤21和22的操作收集不少于256个输入图像样本、 决策动作数据 和奖励数据, 并按数据收集的时间先后顺序存放在强化学习通用的经验回放池中。 5.根据权利要求4所述的基于视觉的机器人的控制方法, 其特征在于, 所述步骤203中, 收集的输入图像样本、 决策动作数据和奖励数据的数量均不少于 5000个。 6.根据权利要求3所述的基于视觉的机器人的控制方法, 其特征在于, 所述步骤24中, 对整体奖励序列进行分段的预设时长T为5秒; 所述步骤25 中, 所述双头特征函数预测器为基于多层感知机设计的输出层采用双头结 构的全连接网络结构, 能匹配特 征函数复数值中的实部和虚部; 所述步骤27中, 预设的训练结束数据量 为1000000个。 7.根据权利要求3所述的基于视觉的机器人的控制方法, 其特征在于, 所述步骤24中, 以采样的方式计算出一个批次的奖励序列的特征函数采样值的随机变量的特征函数公式 为: 上述公式中各参数含义为: R为随机变量, 是t时刻下长度为T秒的奖励序列段; o为作 为 输入的t时刻下的一个输入图像样本, 由t时刻下的三个图像通过强化学习帧栈堆叠得到; a 为t时刻下长度为T秒的动作序列段, 即按时间顺序排列整体决策动作数据, 按 预设时长T将 整体动作序列分为多个动作序列段, 起始于t 时刻的动作序列段就是a; ω为特征函数 的采 样点; E为求期望的数学表达公式; i为复数单位 <·,·>为内积运算 p为观测 数据o和动作序列a到某一奖励序列段的概 率密度函数; 按上述公式对每个奖励序列段重 复计算不少于64次, 即得到所述步骤24中的64个批次 的特征函数采样值。 8.根据权利要求7所述的基于视觉的机器人的控制方法, 其特征在于, 所述步骤25中, 所述双头特征函数预测器Ψ=( ψcos, ψsin)使用卷积特征编码器的输出Φ(o)作为输入, 通过 公式 预测奖励序列段的特征函数采样 值中的实部 ψcos和虚部 ψsin, 所述双头特 征函数预测器的损失函数为:权 利 要 求 书 2/3 页 3 CN 114800530 A 3

.PDF文档 专利 基于视觉的机器人的控制方法、设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于视觉的机器人的控制方法、设备及存储介质 第 1 页 专利 基于视觉的机器人的控制方法、设备及存储介质 第 2 页 专利 基于视觉的机器人的控制方法、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:25:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。