专利一种基于强化学习差分算法的无人机动态航迹规划方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211195962.8 (22)申请日 2022.09.29 (65)同一申请的已公布的文献号申请公布号 CN 115290096 A (43)申请公布日 2022.11.04 (73)专利权人广东技术师范大学地址 510000 广东省广州市天河区中山大道西293号 (72)发明人谭志平　唐宇　黄明浩　黄文轩　邢诗曼　黄华盛　郭琪伟　方明伟　 (74)专利代理机构北京高航知识产权代理有限公司 11530 专利代理师王庞 (51)Int.Cl. G01C 21/20(2006.01)G06F 30/27(2020.01) G06N 20/00(2019.01) G06F 111/04(2020.01) G06F 111/10(2020.01) 审查员章慧敏 (54)发明名称一种基于强化学习差分算法的无人机动态航迹规划方法 (57)摘要本发明涉及无人机动态航迹规划技术领域，且公开了一种基于强化学习差分算法的无人机动态航迹规划方法，包括以下步骤： S1：获取无人机需要飞行的地势环境； S2：根据获取的环境数据、无人机自身性能约束，建立航迹规划模型，将环境表示为一个人工势场，以目标点为中心建立引力势场，以障碍物及威胁为中心建立斥力势场； S3：在建立航迹规划模型时，增加定位误差校正的函数结构体，根据所述人工势场，计算出无人机当前所受合力，并使无人机在合力作用下前进； S4：基于航迹规划模型设计强化学习差分算法； S5：将强化学习差分算法进行优化后植入到无人机智能系统中，通过基于强化学习差分算法优化后的算法进行求解，完成对无人机的航迹规划。权利要求书2页说明书13页附图1页 CN 115290096 B 2022.12.20 CN 115290096 B 1.一种基于强化学习差分算法的无人机动态航迹规划方法，其特征在于，包括以下步骤： S1：获取无人机需要飞行的地势环境； S2：根据获取的环境数据、无人机自身性能约束，建立航迹规划模型，将环境表示为一个人工势场，以目标点为中心建立引力势场，以障碍物及威胁为中心建立斥力势场； S3：在建立航迹规划模型时，增加定位误差校正的函数结构体，根据所述人工势场，计算出无人机当前所受合力，并使无人机在合力作用下前进； S4：基于航迹规划模型设计强化学习差分算法； S5：将强化学习差分算法进行优化后植入到无人机智能系统中，通过基于强化学习差分算法优化后的算法进行求解，完成对无人机的航迹规划；所述S4中强化学习差分进化算法设计包括以下步骤： S31：将强化学习和差分进化算法相结合，采用 Q 学习算法或者深度 Q 学习算法作为智能体，进行智能决策； S32：采用弥散性度量、自相关性粗糙度、地形信息粗糙度以及适应度云对优化问题进行分析，将优化问题适应度地形特征信息作为强化学习智能体的状态空间； S33：将差分进化算法控制参数和变异策略的选择作为智能体的动作空间，同时设计将种群进化效率作为智能体的奖励； S34：最终实现智能体通过状态空间获取优化问题局部信息，根据状态空间信息执行动作空间相应的操作，计算执行相应动作操作后获得的奖励并将其返回给智能体。 2.根据权利要求1所述的一种基于强化学习差分算法的无人机动态航迹规划方法，其特征在于，所述S3中增加定位误差校正的函数结构体包括以下步骤： S21：设置无人机的1个出发点和1个目的地R个水平校正点、 L个垂直校正点组成的无人机航迹规划区域； S22：构建包含2+R+L点的无人机航迹规划区域，无人机在空间飞行过程中需要实时定位，其定位误差包括垂直误差和水平误差，无人机每飞行1m，垂直误差和水平误差将各增加 δ个专用单位，并当到达目的点时垂直误差和水平误差均应小于θ个单位，无人机能够按照规划航迹飞行； S23：无人机在飞行过程中需要对定位误差进行校正，航迹规划区域内存在校正点用于误差校正，当无人机到达校正点即能够根据校正点的误差校正类型进行误差校正，校正垂直和水平误差的位置根据地形在航迹规划前确定，当垂直误差、水平误差均能及时校正，则无人机能够按照预定航线飞行，并通过若干个校正点进行误差校正后最终到达目的地。 3.根据权利要求1所述的一种基于强化学习差分算法的无人机动态航迹规划方法，其特征在于，所述S3中合力计算按照下式确定无人机的运动方向：；其中，表示目标对无人机的吸引力，是目标的坐标向量， X是无人机当前位置的坐标向量； k为系数，取值为0～1；表示禁飞区对无人机的排斥力，采用现有的斥力场函数完成计算；吸引力与排斥力的合力F即是无人机运动的方向。 4.根据权利要求1所述的一种基于强化学习差分算法的无人机动态航迹规划方法，其特征在于，所述S 5中，对通过基于强化学习差分算法优化后的算法进行求解，完成对无人机的航迹规划以及对航迹进行约束条件避障。 5.根据权利要求4所述的一种基于强化学习差分算法的无人机动态航迹规划方法，其权　利　要　求　书 1/2 页 2 CN 115290096 B 2特征在于，所述约束条件避障包括以下步骤： S61：输入无人机初始位置作为当前位置， m个禁飞区的中心位置, ，以及该无人机所分配的目标位置G； S62：取两个变量G1， G2，分别表示计算过程中的目标位置以及最终目标位置，并且初始化G1＝G2＝G；开辟A， B两个存储空间，并将无人机当前位置存入A；初始化迭代次数num＝ 0； S63：确定无人机的运动方向，设置无人机的运动步长为L，使无人机从当前位置以确定的运动方向按照运动步长L移动，以移动后的位置来更新当前位置，并且将此时无人机的位置存入A中，迭代次数num＝ num+1； S64：判断num>N是否成立，如成立，则置num＝0并进行步骤S65，否则返回步骤S63；其中 N为预设的迭代总数； S65：判断当前位置与G1之间的距离d是否满足d< ，其中为预设的距离阈值； S66：判断最后M个存入A的位置点是否都在一个预设的圆形区域内，如果是，则表明当前处于平衡位置或局部最小点，则进行跳出处理；如果不是就继续步骤S63； S67：求出A最后存入的两个点之间的直线表达式； S68：判断所述直线是否与每个圆形禁飞区相交，如果不是则返回步骤S63，否则将A最后存的位置赋值给G1，清空A ，然后进行步骤S6 3； S69：将A中所有的位置存入B中，并判断G1是否等于G2，如果不是，则令＝G1， G1＝G2，然后进行步骤S6 3； S610： B中所存的位置点即为无人机的避障航迹。 6.根据权利要求1所述的一种基于强化学习差分算法的无人机动态航迹规划方法，其特征在于，所述S2中建立航迹规划模型还包括以下步骤： S71：获取目标区域包括地表地形数据、植作物数据的图像数据； S72：基于所述目标区域的图像数据得到无人机的初始航线； S73：基于所述初始航线上的拐点位置提取初始航线的第一实际地理坐标，基于地表地形数据的高程值调整第一实际地理坐标，得到第一高程坐标； S74：基于第一高程坐标调整所述初始航线得到地形航线； S75：将初始航线以预设距离划分区间，逐点提取每一个区间端点的第二实际地理坐标； S76：基于植作物数据调整第二实际地理坐标，得到第二高程坐标，基于第二高程坐标调整所述初始航线得到植作物航线； S77：基于地形航线及植作物航线建立航迹规划模型。权　利　要　求　书 2/2 页 3 CN 115290096 B 3

专利 一种基于强化学习差分算法的无人机动态航迹规划方法

专利一种基于强化学习差分算法的无人机动态航迹规划方法