专利 一种基于Concurrent Decode强化学习的异构车队分批交付方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210884085.9 (22)申请日 2022.07.26 (71)申请人西北师范大学地址 730030 甘肃省兰州市安宁区安宁东路967号 (72)发明人田冉　冷吉锴　高鑫　马忠彧　刘颜星　杨馥宁　杨赛赛　卢梦　康春明　赵光路　 (74)专利代理机构北京盛凡佳华专利代理事务所(普通合伙) 11947 专利代理师靳桂琳 (51)Int.Cl. G06Q 10/08(2012.01) G06Q 10/06(2012.01) G06Q 10/04(2012.01)G06Q 30/02(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于Concurrent Decode强化学习的异构车队分批交付方法 (57)摘要本发明提供了一种基于ConcurrentDecode 强化学习的异构车队分批交付方法。该方法是一种具有表征HFVRPSD中不同信息的Encoder ‑ Decoder架构，首先， Encoder额外地融合了车队的容量信息，增强了决策网络对于不同车辆容量的敏感性，然后提出了一种并发自适应神经网络结构，该方法集成了深度强化学习和Attention 机制来学习路径构建策略。具体来说，策略网络并发地对于每辆车和其配送能力范围内的节点做了车‑节点匹配， Decoder 针对每辆车上下文以车队整体角度并发地为每辆车求得最优回路。实验结果表明，该方法在总体解决质量方面优于大多数传统的启发式算法，并且具有更短的计算时间。本方法促进了基于深度强化学习的方法在组合优化领域的发展，以解决各种车辆路径问题。权利要求书5页说明书10页附图4页 CN 115130970 A 2022.09.30 CN 115130970 A 1.一种基于Concurrent Decode强化学习的异构车队分批交付方法，其特征在于包括下述步骤：定义： CDDRL全称为Concurr entDecode Deep Reinforcement Learning，即并发解码深度强化学习，本发明设计了一种具有表征HFVRPSD中不同信息的Enco der‑Decoder架构，来增强DRL拟合不同场景的能力，用以自动选择节点，在这种架构中，在解码过程中收纳了不同的额外信息，并且迭代更新用以补充不同状态对于A gent决策的影响，然后，提出了一种并发搜索策略，以车队整体角度并发地为每辆车求得最优回路，这种搜索策略能够更为精确的表征解码过程中图的状态，并且能够使得不同容量的车辆之间能够协同地处理客户节点的需求；步骤1：对HFVRPSD的混合整数规划公式进行问题建模；我们假定，在一个HFVRPSD中，一组n个需求节点和一个交付中心被表示为一个图G，假设G＝(P,K)为该交付任务，其中P＝ {P0,P1,P2,......,Pn,}表示顶点集，包括交付中心P0＝{x0,y0}和需求节点Pi＝{Pix,Piy, ρi| i∈n}， (Pix,Piy)和ρi分别表示节点i的坐标与需求量；弧集A＝{(Pi,Pj)|Pi,Pj∈P,i≠j,}为任意两点之间的弧，距离矩阵D＝C(i,j)为弧(Pi,Pj)的长度， K＝{kb|b＝1,2,...,K}表示交付中心配有K辆核载量为kb的车，车辆k在客户点 i的交付量为wki，定义决策变量如下：其中，是一个二元变量，表示车辆k的路径是否包含弧(Pi,Pj)， yki表示节点Pi是否在车辆k的路径上，据此， HFVRP SD的目标函数可以表示为：步骤2：马尔可夫决策过程建模；在HFVRPSD中每辆车服务过多个节点之后回到车场的过程上可以看作是一个决策序列，因此，我们将这样的路线建设过程建模为马尔可夫决策过程(MarkovDeci sionProc ess， MDP)，由四元组M＝{S,A, τ,R}表示， S表示状态， A为智能体， τ为状态转移规则， R为奖励函数， MDP的元素，即状态空间、动作空间、转换规则和奖励函数定义如下：步骤2.1：状态；状态S＝(St|t＝1,2,...,T)表示状态集合，状态ST表示在所有节点需求都被满足且所有车辆全部回到交付中心时为最后一个状态，其中由车辆状态和节点状态Ot组成，表示车辆状态，其中表示车辆k在解码步骤t时的剩余核载量和位置为节点状态，表示节点i在t时刻的剩余需求；步骤2.2：动作；动作A＝π(G)＝{at|t＝1,2,...,T ‑1}表示由策略π在图G下产生的一系列动作集，表示车辆k在t时刻选择了节点 i作为交付任务；权　利　要　求　书 1/5 页 2 CN 115130970 A 2步骤2.3：状态转移规则；状态转移规则Γ根据执行的动作将前一状态St转换为下一状态St+1，则其中车辆状态的更新如下：上式表示如果在St时执行了动作则车辆k在St+1时刻的剩余核载量为状态St时的核载量减去选择节点的需求量其他车辆保持不变；同理，式二表示如果在St时执行了动作则车辆k在St+1时刻的位置为节点Pi，其他车辆位置不变；节点状态更新如下：上式代表如果在状态St时执行了动作则节点i在St+1时的剩余需求为状态St时节点 i的剩余需求量减去车辆 z的剩余核载量其它节点St时保持一致；此外， HFVRP SD的掩码规则计算如下：上式表示车辆k在t时刻对于节点j的可访问性，意味着只要当前车辆k还有剩余核载量或者还有需求未被满足时为False，代表可以访问，其余为True；同理，式二表示车辆k在t时刻对于交付中心的可访问性，当且仅当车辆剩余核载量为零或者没有需求需要交付时为 False，代表可以回到交付中心，反之亦然；最终掩码规则为：表示最终掩码规则由交付中心掩码与需求节点掩码组合而成；步骤2.4：奖励；奖励：出于强化学习最大化奖励的目标，目标函数的负值被计算为奖励，表示为：目标函数：为了最小化目标函数中的目标，可以将最终回报定义为：最终需要求得最优策略π*，即：权　利　要　求　书 2/5 页 3 CN 115130970 A 3

专利 一种基于Concurrent Decode强化学习的异构车队分批交付方法

专利一种基于Concurrent Decode强化学习的异构车队分批交付方法