行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210487771.2 (22)申请日 2022.05.06 (71)申请人 武汉理工大 学 地址 430070 湖北省武汉市洪山区珞狮路 122号 (72)发明人 刘佳宜 徐文君 杨灿 姚碧涛  (74)专利代理 机构 湖北武汉 永嘉专利代理有限 公司 42102 专利代理师 朱宏伟 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 考虑产品零件失效特征的工业机器人拆解 序列规划方法 (57)摘要 本发明公开了一种考虑产品零件失效特征 的工业机器人拆解序列规划方法, 包括以下步 骤: 构建面向拆解过程的产品失效零件对其他零 件拆解时间的关联关系模型; 建立拆解信息模 型; 构建面向工业机器人拆解序列规划问题的环 境模型, 确定各要素与拆解序列规划模型的映射 关系; 构建决策网络与目标网络的双层网络结 构, 并引入经验回放机制, 对神经网络进行训练 得到较优的网络模型; 最后通过深度强化学习得 到的决策网络模型获取拆解产品的最优拆解序 列。 本发明考虑了零件失效特征对产品拆解过程 的影响关系, 公开了用于求解工业机器人拆解序 列规划问题的深度强化学习方法, 解决了在状态 空间较大时的维数灾难问题, 有助于提升工业机 器人拆解废旧产品的效率。 权利要求书2页 说明书6页 附图4页 CN 114800510 A 2022.07.29 CN 114800510 A 1.一种考虑产品零件失效特征的工业机器人拆解序列规划方法, 其特征在于, 包括以 下步骤: 1)构建面向拆解过程的产品失效零件 对其他零件拆解时间的关联关系模型; 2)建立具 备失效特 征产品的拆解信息模型; 3)构建面向工业机器人拆解序列规划问题的深度强化学习中的环境模型, 确定深度强 化学习中的各要素与拆解序列规划模型的映射关系; 4)构建决策网络与目标网络的双层网络结构, 并引入经验回放机制, 对神经网络进行 训练得到网络模型; 5)通过深度强化学习得到的决策网络模型获取拆解产品的最优拆解序列。 2.根据权利要求1所述的考虑产品零件失效特征的工业机器人拆解序列规划方法, 其 特征在于, 所述步骤1)中构建面向拆解过程的产品失效零件对其他零件拆解时间的关联关 系模型, 零件的关联关系模型由三元组表示: M=<A,B,T> 式中: A为具备失效特征的零件集, A={a1,a2,...,am}, ai表示第i个零件失效; B为被失 效零件影响到的零件集, 也就是对A集中存在关联关系的零件集, B={B1,B2,...,Bm}, Bi表 示对应于受到失效零件ai的影响的零件集; T为被失效零件影响零件集的拆解时间集合, T ={T1,T2,...,Tm}, Ti表示受影响零件集Bi所对应的拆解时间集。 3.根据权利要求1所述的考虑产品零件失效特征的工业机器人拆解序列规划方法, 其 特征在于, 所述步骤2)中拆解产品的拆解信息模型的建立依赖于拆解产品的三维结构、 空 间位置信息, 通过以下 方法建立产品的拆解信息模型: (1)将拆解产品的各零件进行编号, 得到1~N个零件; (2)借助Demo3D软件或者其他三维模型软件标定坐标轴位置, 从而得到每个零件拆解 点的相对坐标位置信息; (3)结合零件拆解点的坐标位置信 息及工业机器人执行拆解操作过程中末端执行器的 移动速度t, 通过 各坐标点的欧氏距离除以移动速度得到 工业机器人的移动时间; (4)根据拆解产品零件之间的三维结构关系, 构建N*N的拆解优先矩阵DPM表示零件之 间的拆解约束关系, DPM(i,j)=1表示零件j对零件i有干涉关系, 即零件i必须在零件j拆解 之后才能拆除, 若D PM(i,j)=0, 则零件i和零件j的拆解 顺序无要求。 4.根据权利要求1所述的考虑产品零件失效特征的工业机器人拆解序列规划方法, 其 特征在于, 所述步骤3)中的构建面向工业机器人拆解序列规划问题的深度强化学习中的环 境模型, 确定深度强化学习中的各要 素与拆解序列规划模型的映射关系, 其状态空间、 动作 空间、 奖励函数定义具体如下: 假设工业机器人拆解的产品零件个数为 N个, 则状态空间为: S={s|s=(d1,d2,d3,...,dN,c1,c2,c3,...,cN)} 其中di表示第i个零件是否被拆解的状态, 如果为1则表示该零件已经被拆解, 如果为0 则表示该零件还没被拆解; ci表示当前正在被拆解的零件的状态, 如果为1则 表示正在被拆 解, 为0表示 不是正被 拆解; 动作空间为: A={1,2,3,...,N}, 表示可以选择进行拆解的1~N号零件的动作, 在进行 拆解序列规划进行学习过程中每一步可选动作并不包含整个动作空间, 而会受到步骤2)中权 利 要 求 书 1/2 页 2 CN 114800510 A 2拆解优先约束矩阵D PM的约束, 且要除去已经被 拆解的零件; 奖励函数的设计与优化目标有关, 以拆解时间最短为优化目标, 该拆解时间由三部分 组成, 分别是: 拆 解该零件的基本拆 解时间Tbasic、 拆解不同零件之间切换时间Tchange、 考虑零 件失效特征对其关联零件的影响时间Tfault; 其中每个零件基本拆解 时间设置为固定常数; 拆解不同零件之间切换时间包括拆解工具切换 的时间、 拆解方向切换 的时间、 工业机器人 末端执行器在不同拆解点之 间的移动时间; 深度强化学习中的奖励函数的与优化目标高度 相关, 其目标是使得到的累积奖励最大化, 而拆解序列规划目标是为了使拆解时间最短, 深 度强化学习中的智能体每次选择下一步拆解的零件这个动作之后, 将即时奖励设置为R= TC‑Tchange‑Tfault。 5.根据权利要求1所述的考虑产品零件失效特征的工业机器人拆解序列规划方法, 其 特征在于, 所述步骤4)中的决策网络是用来评估当前状态动作的价值函数, 目标网络用于 产生目标函数, 从而通过与目标函数、 价值函数相关的损失函数来更新决策网络中的参数 以得到较优的决策网络模型; 经验回放机制降低了智能体与 环境交互得到训练样本的相关 性, 通过记 忆池的形式缓存过去的经验和目前的经验, 且使得样本可重用。 6.根据权利要求5所述的考虑产品零件失效特征的工业机器人拆解序列规划方法, 其 特征在于, 所述 步骤5)中的基于深度强化学习算法的整体流 程具体如下: (1)初始化各 学习参数及策略网络、 目标网络, 并启动学习情节; (2)根据产品拆解信息模型, 工业机器人拆解序列规划环境给虚拟拆解机器人智能体 一个初始状态st; (3)虚拟拆解机器人智能体观察当前环境, 根据策略π选择动作at并执行; (4)环境基于智能体给出的动作at以及当前状态st给出一个奖励r, 并且更新工业机器 人拆解序列规划环境状态, 进入下一个 状态st+1; (5)状态更新后重复步骤(3)~(4)的过程, 并且虚拟拆解机器人智能体在探索和利用 过程中学习到经验, 并且不断调整自己的策略网络参数; (6)完成指定的学习情节数之后, 虚拟拆解机器人智能体学习到了选择动作的相对最 优的策略, 最终通过最优决策网络模型获取最优的考虑零件失效特征的工业机器人拆解序 列, 结束学习流 程。权 利 要 求 书 2/2 页 3 CN 114800510 A 3

.PDF文档 专利 考虑产品零件失效特征的工业机器人拆解序列规划方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 考虑产品零件失效特征的工业机器人拆解序列规划方法 第 1 页 专利 考虑产品零件失效特征的工业机器人拆解序列规划方法 第 2 页 专利 考虑产品零件失效特征的工业机器人拆解序列规划方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:27:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。