专利抓取方法及装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210456336.3 (22)申请日 2022.04.27 (71)申请人北京市商汤科技开发有限公司地址 100080 北京市海淀区北四环西路58 号11层1101-1117室 (72)发明人王慎执　王纪龙　陈昊　吴立威　赵瑞　 (74)专利代理机构北京林达刘知识产权代理事务所(普通合伙) 11277 专利代理师刘新宇 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称抓取方法及装置、电子设备和存储介质 (57)摘要本公开涉及一种抓取方法及装置、电子设备和存储介质，所述方法包括：根据获取的目标对象的第一位姿，确定机械臂的动作，以及该动作对应的可包括至少一个时间步的持续时间，根据机械臂的动作和目标对象的第一位姿，生成机械臂针对一个时间步的单步轨迹，并根据持续时间重复执行单步轨迹，以使目标对象移动到第二位姿。本公开实施例可自适应地合并重复动作，从而减少强化学习算法的推理次数，进而提高工业生产效率，同时还能提升抓取的成功率。权利要求书2页说明书18页附图5页 CN 114833830 A 2022.08.02 CN 114833830 A 1.一种抓取方法，其特征在于，包括：获取目标对象的第一位姿，所述第一位姿包括所述目标对象当前状态的三维位置和所述目标对象当前状态的三维转角；根据所述目标对象的第一位姿，确定机械臂的动作，以及所述动作对应的持续时间，所述持续时间包括至少一个时间步；根据所述机械臂的所述动作和所述目标对象的第一位姿，生成所述机械臂的单步轨迹，所述单步轨迹为针对一个时间步生成的轨迹；根据所述持续时间重复执行所述单步轨迹，以使所述目标对象移动到第二位姿，所述第二位姿包括所述目标对象下一状态的三维位置和所述目标对象下一状态的三维转角。 2.根据权利要求1所述的方法，其特征在于，所述根据所述目标对象的第一位姿，确定机械臂的动作，以及所述动作对应的持续时间，包括：根据所述目标对象的第一位姿、所述目标对象的至少一个历史位姿、所述机械臂的至少一个历史动作，确定所述机械臂的状态；根据所述机械臂的所述状态，确定所述机械臂的动作，以及所述动作对应的持续时间。 3.根据权利要求2所述的方法，其特征在于，所述根据所述机械臂的所述状态，确定所述机械臂的动作，以及所述动作对应的持续时间，包括：根据所述机械臂的所述状态，利用策略确定所述机械臂的动作，以及所述动作对应的持续时间；其中，所述策略用于调整所述动作以及所述动作对应的持续时间以适应每个状态。 4.根据权利要求3所述的方法，其特征在于，所述策略包括利用强化学习方法获取的强化学习模型中的多层感知机，其中，所述强化学习模型的状态空间表示机械臂的状态集合，动作空间表示机械臂的动作集合与持续时间集合的笛卡尔积，状态转移概率代表在每个状态下按照所述持续时间重复执行动作对应的单步轨迹后下一状态的概率，初始状态分布表示用于生成初始状态的概率分布，奖励函数表示针对每个状态下按照所述持续时间重复执行动作对应的单步轨迹后的评价，折扣系数用于调整所述奖励函数。 5.根据权利要求4所述的方法，其特征在于，所述奖励函数包括成功奖励函数，运动奖励函数，安全奖励函数，时间惩罚奖励函数中的至少一种，所述成功奖励函数用于评价每个状态下按照所述持续时间重复执行动作对应的单步轨迹后，所述目标对象的所述第二位姿是否属于期望位姿集；所述运动奖励函数用于评价每个状态下按照所述持续时间重复执行动作对应的单步轨迹后，所述目标对象的所述第二位姿与期望位姿的距离；所述安全奖励函数用于评价所述每个状态下机械臂动作的危险程度；所述时间惩罚奖励函数用于约束所述强化学习模型的推理次数。 6.根据权利要求1 ‑5中任一项所述的方法，其特征在于，所述根据所述持续时间重复执行所述单步轨迹，以使所述目标对象移动到第二位姿之后，所述方法还包括：将目标对象的所述第二位姿，确定为所述目标对象的所述第一位姿，重新执行获取目标对象的第一位姿及之后的步骤。 7.根据权利要求1 ‑5中任一项所述的方法，其特征在于，所述根据所述机械臂的所述动权　利　要　求　书 1/2 页 2 CN 114833830 A 2作和所述目标对象的第一位姿，生成所述机械臂的单步轨迹，包括：利用逆动力学方法，将所述机械臂的所述动作和所述目标对象的第一位姿，生成所述机械臂的单步运动轨迹。 8.根据权利要求1 ‑7中任一项所述的方法，其特征在于，所述机械臂包括末端执行器，所述末端执行器包括单点触控的执行器。 9.一种抓取装置，其特征在于，包括：获取模块，用于获取目标对象的第一位姿，所述第一位姿包括所述目标对象当前状态的三维位置和所述目标对象当前状态的三维转角；确定模块，用于根据所述目标对象的第一位姿，确定机械臂的动作，以及所述动作对应的持续时间，所述持续时间包括至少一个时间步；生成模块，用于根据所述机械臂的所述动作和所述目标对象的第一位姿，生成所述机械臂的单步轨迹，所述单步轨迹为针对一个时间步生成的轨迹；执行模块，用于根据所述持续时间重复执行所述单步轨迹，以使所述目标对象移动到第二位姿，所述第二位姿包括所述目标对象下一状态的三维位置和所述目标对象下一状态的三维转角。 10.一种电子设备，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至8中任意一项所述的方法。 11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114833830 A 3

专利 抓取方法及装置、电子设备和存储介质

专利抓取方法及装置、电子设备和存储介质