行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210933069.4 (22)申请日 2022.08.04 (71)申请人 东北大学 地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人 赵彬 吴成东 孙若怀  (74)专利代理 机构 北京国坤专利代理事务所 (普通合伙) 11491 专利代理师 张国栋 (51)Int.Cl. G01C 21/20(2006.01) G01S 17/86(2020.01) G06T 7/73(2017.01) (54)发明名称 一种强化学习的移动机器人动态复杂环境 避障导航方法 (57)摘要 本发明公开了一种基于深度强化学习的移 动机器人动态复杂环境避障导航方法, 包括避障 模块、 目标接近模块、 DRL策略训练模块、 模拟 ‑现 实任务。 本发明的有益效果是: 通过该方法实现 移动机器人在无全局地图信息的情况下, 依靠传 感器的观测 信息, 通过多障碍物识别网络对观测 结果进行处理, 结合目标的相对位置信息, 通过 深度强化学习模型进行训练, 学习避障导航策 略, 避开多个动态障碍物, 到达指定目标点; 不再 依赖于全局地图, 不需耗费大量算力建立高精度 地图, 不需考虑全局地图信息的维护与更新; 输 入传感器观测信息, 输出机器人控制动作, 端到 端的导航策略模式反应迅速, 能够适应复杂动态 多障碍物的环境。 权利要求书1页 说明书3页 附图1页 CN 115435788 A 2022.12.06 CN 115435788 A 1.一种基于深度强化学习的移动机器人动态复杂环境避障导航方法, 其特征在于: 包 括以下步骤 步骤一、 避障模块: 深度相机采集图像信 息通过障碍物特征识别网络提取障碍物特征, 结合深度测距信息, 组合输入进DRL模型进行训练; 步骤二、 目标接近模块: 激光雷达采集环境信息, 结合目标点在局部坐标系的位置, 输 入进DRL模型进行训练; 步骤三、 DRL策略训练模块: 将两个子任务结合, 通过深度分层强化学习模型在虚拟环 境中进行训练; 步骤四、 模拟 ‑现实任务: 训练完成后的模型移植到现实环境中。 2.根据权利要求1所述的一种基于深度强化学习的移动机器人动态复杂环境避障导航 方法, 其特 征在于: 所述 步骤一中, 具体包括: 机器人通过深度相机采集环境信 息, 输入到多障碍物识别网络对障碍物边界特征进行 识别, 并结合深度测距信息, 对局部环境信息中的障碍物进 行定位识别, 输出障碍物在局部 坐标系中的位置信息和边界特 征信息, 输入到DRL策略训练模块进行训练。 3.根据权利要求1所述的一种基于深度强化学习的移动机器人动态复杂环境避障导航 方法, 其特 征在于: 所述 步骤二中, 具体包括; 激光雷达采集环境信息, 结合目标点在局部坐标系中的位置信 息, 输入进DRL策略训练 模块与避障模块的输入信息进行 联合训练。 4.根据权利要求1所述的一种基于深度强化学习的移动机器人动态复杂环境避障导航 方法, 其特 征在于: 所述 步骤三中, 具体包括: 采用深度分层强化学习模型, 对避 障模块输入的障碍物位置信息和边界特征信息, 对 目标接近模块输入的激光雷达信息和目标点的相对位置信息进行联合训练, 学习避障导航 策略, 输出机器人在局部坐标系中的机器人控制策略。 5.根据权利要求1所述的一种基于深度强化学习的移动机器人动态复杂环境避障导航 方法, 其特 征在于: 所述 步骤四中, 具体包括: 深度强化学习模型的训练过程只 能在模拟环境中进行, 在完成训练后, 将模型部署在 实际机器人中, 需要对 模型进行微调以适应任务需要。权 利 要 求 书 1/1 页 2 CN 115435788 A 2一种强化学习的移动机 器人动态复杂环境 避障导航 方法 [0001]本发明涉及 一种机器人避障导航方法, 具体为一种基于深度强化学习的移动机器 人动态复杂环境避障导 航方法, 属于 机器人自动化控制和人机交 互技术领域。 背景技术 [0002]基于地图信息的导航方式在过去几年取得了令人瞩目的成就, 这得益于同时定位 与建图(SLAM)技术的发展, 利用传感器如激光雷达或相机建立全局地图, 定位机器人的位 置, 并在此基础上建立局部代价地图, 与路径规划器配合进行导航。 然而, 这种技术完全依 赖于预先建立好的地图, 环境的改变使得地图需要更新, 否则机器人无法在原有地图中定 位, 更不能进行导航。 其次, 在基于地图的导航方式中, 建立地图与规划导航实际上被看作 是独立的两个任务, 这种分裂的关系使得整个导航系统只能在简单和相对静态的环境中发 挥作用, 更无法应用于未知环境。 最后, 在应对复杂, 多动态障碍物的场景时, 基于地图的导 航方式依赖于局部代价地图的及时更新以及先验避障规则的合理有效, 局部代价地图的更 新往往不够及时, 人为确定的避障规则无法保证全局 最优, 这两者同样限制 了基于地图的 导航方式在复杂, 多动态障碍物 环境中的应用。 [0003]基于深度强化学习的移动机器人避障导航方法主要特点: 机器人获取传感器观测 信息和目标点在局部坐标系下的相对位置, 通过深度强化学习模型, 设置奖励函数, 在 模拟 环境中进 行训练, 输入传感器观测信息, 输出机器人控制动作, 学习避开障碍物和接近目标 点策略。 最后通过调整将模型移植到现实环境中。 [0004]主要缺点: 深度强化学习采样效率低, 需要大量训练; 在模拟环境下训练, 迁移到 实际中有困难; 现有DRL学习方法不 适用于动态 环境; 容易出现局部最优决策。 发明内容 [0005]本发明的目的就在于为了解决上述至少一个技术问题而提供一种基于深度强化 学习的移动机器人动态复杂环境避障导 航方法。 [0006]本发明通过以下技术方案来实现上述目的: 一种基于深度强化学习的移动机器人 动态复杂环境避障导 航方法, 包括以下步骤 [0007]步骤一、 避障模块: 深度相机采集图像信息通过障碍物特征识别网络提取障碍物 特征, 结合深度测距信息, 组合输入进DRL模型进行训练; [0008]步骤二、 目标接近模块: 激光雷达采集环境信息, 结合目标点在局部坐标系 的位 置, 输入进DRL模型进行训练; [0009]步骤三、 DRL策略训练模块: 将两个子任务结合, 通过深度分层强化学习模型在虚 拟环境中进行训练; [0010]步骤四、 模拟 ‑现实任务: 训练完成后的模型移植到现实环境中。 [0011]2.根据权利要求1所述的一种基于深度强化学习的移动机器人动 态复杂环境避障 导航方法, 其特 征在于: 所述 步骤一中, 具体包括: [0012]机器人通过深度相机采集环境信息, 输入到多障碍物识别网络对障碍物边界特征说 明 书 1/3 页 3 CN 115435788 A 3

.PDF文档 专利 一种强化学习的移动机器人动态复杂环境避障导航方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种强化学习的移动机器人动态复杂环境避障导航方法 第 1 页 专利 一种强化学习的移动机器人动态复杂环境避障导航方法 第 2 页 专利 一种强化学习的移动机器人动态复杂环境避障导航方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:03:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。