专利一种基于强化学习的3D NoC映射优化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211180402.5 (22)申请日 2022.09.27 (71)申请人浙江工业大学地址 310006 浙江省杭州市拱墅区朝晖六区潮王路18号 (72)发明人李甜甜　李子俊　曹斌　范菁　 (74)专利代理机构杭州浙科专利事务所(普通合伙) 33213 专利代理师汤明 (51)Int.Cl. G06T 17/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于强化学习的3D N oC映射优化方法 (57)摘要本发明公开了一种基于强化学习的3D NoC 映射优化方法，属于运筹优化管理领域。其具体步骤如下：首先根据3D NoC映射需求对 IP核映射进行数学建模，构建3D NoC映射环境；然后使用 ε‑Greedy方法在3D NoC映射环境中进行半随机 IP核映射安排，同时使用强化学习方法对半随机 IP核映射过程进行学习，即从不同的IP核映射之间的价值差异中进行学习，使深度神经网络能够近似不同IP 核映射的价值；最后通过使用深度神经网络对实际3D NoC映射需求下不同IP核映射的价值进行预测，然后选择输出系统优化的满足 3D NoC映射需求的IP 核映射序列。本发明构建的基于强化学习的3D NoC映射优化方法具有映射效率高、优化效果好的特点。权利要求书2页说明书6页附图2页 CN 115482336 A 2022.12.16 CN 115482336 A 1.一种基于强化学习的3D NoC映射优化方法，其特征在于，包含以下步骤： 1)对3D NoC映射过程进行建模，构建3D NoC映射环境； 2)使用 ε‑Greedy方法在步骤1)构建的3D NoC映射环境中进行半随机IP核映射方案； 3)基于步骤2)得到的IP核映射安排，使用强化学习方法对不同IP核映射的价值差异进行学习，并使用深度神经网络Q近似不同IP核映射的价值； 4)基于步骤3)训练得到的深度神经网络Q，对不同IP核映射的价值进行预测，选择输出较优的IP核映射方案。 2.如权利要求1所述基于强化学习的3D NoC映射优化方法，其特征在于，所述步骤1) 中，根据3D NoC映射需求对3D NoC映射建模，构建3D NoC映射环境的方法： 1‑1)根据映射需求的可行范围对3D NoC映射环境进行随机初始化； 1‑2)规定3D NoC映射环境可选动作集合为A＝{映射到第1个资源节点，映射到第2个资源节点，……，映射到第n个资源节点}，即每个IP核可以映射到任何一个可选的资源节点上；在实际映射中，可选映射节点必须是尚未映射其他IP核的资源节点； 1‑3)3D NoC映射环境对于每次IP核映射前需要给出满足3D NoC映射需求的IP核映射方式；计算 IP核满足映射需求的映射方式的方法如下：其中， xi表示映射序列中第i个IP核映射的资源节点； Tv和Dv分别表示第i个IP核上任务 v的执行时间和截止期限， Dv根据给定的整个应用的截止期限计算获得； fu表示任务v的前置任务u的完成时间， cuv表示二者之间的通信时间；表示第k个资源节点的峰值温度， Θmax表示系统峰值温度约束；映射序列中每个IP核映射的资源节点均不相同，也即不存在多个IP核映射到一个资源节结点的情况；同时，映射序列还需满足使整个应用在截止期限前完成所有任务的执行，且系统峰值温度满足预设的温度约束条件； 1‑4)根据3D NoC映射优化目标定义映射环境的动作奖励； 1‑5)3D NoC映射环境从第一个IP核开始映射安排，直到最后一个IP核映射完成后结束； 3D NoC映射环境在每一次安排映射前给出当前的映射环境状态st，以及当前IP核可选的满足映射需求的映射安排A ′，接收智能体对当前的IP核的映射安排a({a|a∈A})，给出当前映射的即时奖励rt，并迭代环境到下一个状态 st+1，重复这一映射过程直至环境到达结束状态，即完成了整个3D NoC系统的IP核映射过程。 3.如权利要求1所述基于强化学习的3D NoC映射优化方法，其特征在于，使用 ε ‑Greedy 进行半随机IP核映射安排： 2‑1)ε‑Greedy方法如下：也即，在[0,1)区间产生一个随机数random，如果random小于ε，则在当前可选的动作集合A′中随机选择一个元素作为当前动作，即当前IP核的映射行为；否则，通过深度神经网络权　利　要　求　书 1/2 页 2 CN 115482336 A 2Q对当前状态st下不同IP核映射方式的价值进行预测，选取价值最大的映射方式作为当前动作； 2‑2)将步骤2 ‑1)中ε‑Greedy产生的IP核映射行为at输入到步骤1)中的3DNoC映射环境中，执行IP核映射行为at，并根据映射需求给出即时奖励rt，同时将映射环境从st状态转移到st+1状态，并添加状态转移元组(st,at,rt,st+1)到记忆存储单元M中。 4.如权利要求1所述基于强化学习的3D NoC映射优化方法，其特征在于，所述步骤3) 中，使用强化学习方法对不同IP核映射方案进行学习，并使用深度神经网络Q近似不同IP核映射方案的价值： 3‑1)步骤2)中3D NoC映射环境每经过λ次状态转移，通过对步骤2)的记忆存储单元M中记录的状态转移元组(st,at,rt,st+1)抽样，得到训练数据集D S； 3‑2)针对DS中的每个状态转移元组，计算状态st下采取动作at时对应的真实价值yt: 其中， γ表示未来奖励系数， maxa′∈AQ(st+1,a′)是通过神经网络Q计算得到的st+1状态下采取不同可行动作a ′所能获取的最大价值， rt为在状态st下采取动作at后所获得的即时奖励； 3‑3)将通过步骤3 ‑2)计算得到的真实价值 yt加入到通过步骤3 ‑1)抽样得到的数据集DS 对应的状态转移元组中，记为(st,at,rt,st+1,yt)； 3‑4)把步骤3 ‑3)中得到的数据集DS当作训练数据，使用mini ‑batch梯度下降方法对神经网络Q进行训练，并采用均方误差作为损失函数计算损失值：其中， Q(st,at)是在状态st下深度神经网络Q预测的采取动作at时的价值。 5.如权利要求1所述基于强化学习的3D NoC映射优化方法，其特征在于，所述步骤4) 中，训练得到的深度神经网络Q，对不同IP核映射方案的价值进行预测，并选择输出系统最优的IP核映射序列： 4‑1)根据实际的IP核映射需求对步骤1)中的3D NoC映射环境进行初始化，得到初始状态st； 4‑2)计算获取状态st下满足映射需求的动作集合A′； 4‑3)使用步骤3)训练得到的神经网络Q对状态st下的每个可选映射动作a，进行价值预测，即计算Q(st,a)，其中， a∈A ′；并从中选取价值最大的映射动作作为当前IP核的映射结果，即at＝argmaxa∈A′Q(st,a)； 4‑4)将步骤4 ‑3)中获得的动作at输入到3D NoC映射环境中，映射环境执行映射安排at，并进入下一状态st+1； 4‑5)重复步骤4 ‑3)、步骤4 ‑4)直至3D NoC映射环境到达终止状态，即完成全部IP核的映射；输出步骤4 ‑3)中每次采取的映射安排，即3D NoC需求下每次IP核的映射行为。权　利　要　求　书 2/2 页 3 CN 115482336 A 3

专利 一种基于强化学习的3D NoC映射优化方法

专利一种基于强化学习的3D NoC映射优化方法