(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211180402.5
(22)申请日 2022.09.27
(71)申请人 浙江工业大 学
地址 310006 浙江省杭州市拱 墅区朝晖六
区潮王路18号
(72)发明人 李甜甜 李子俊 曹斌 范菁
(74)专利代理 机构 杭州浙科专利事务所(普通
合伙) 33213
专利代理师 汤明
(51)Int.Cl.
G06T 17/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于强化学习的3D N oC映射优化方法
(57)摘要
本发明公开了一种基于强化学习的3D NoC
映射优化方法, 属于运筹优化管理领域。 其具体
步骤如下: 首先根据3D NoC映射需求对 IP核映射
进行数学建模, 构建3D NoC映射环境; 然后使用
ε‑Greedy方法在3D NoC映射环境中进行半随机
IP核映射安排, 同时使用强化学习方法对半随机
IP核映射过程进行学习, 即从不同的IP核映射之
间的价值差异中进行学习, 使深度神经网络能够
近似不同IP 核映射的价值; 最后通过使用深度神
经网络对实际3D NoC映射需求下不同IP核映射
的价值进行预测, 然后选择输出系统优化的满足
3D NoC映射需求的IP 核映射序列。 本发明构建的
基于强化学习的3D NoC映射优化方法具有 映射
效率高、 优化效果 好的特点。
权利要求书2页 说明书6页 附图2页
CN 115482336 A
2022.12.16
CN 115482336 A
1.一种基于强化学习的3D NoC映射优化方法, 其特 征在于, 包 含以下步骤:
1)对3D NoC映射过程进行建模, 构建3D NoC映射环境;
2)使用 ε‑Greedy方法在步骤1)构建的3D NoC映射环境中进行半随机IP核映射方案;
3)基于步骤2)得到的IP核映射安排, 使用强化学习方法对不同IP核映射的价值差异进
行学习, 并使用深度神经网络Q近似不同IP核映射的价 值;
4)基于步骤3)训练得到的深度神经网络Q, 对不同IP核映射的价值进行预测, 选择输出
较优的IP核映射方案 。
2.如权利要求1所述基于强化学习的3D NoC映射优化方法, 其特征在于, 所述步骤1)
中, 根据3D NoC映射需求对3D NoC映射建模, 构建3D NoC映射环境的方法:
1‑1)根据映射需求的可 行范围对3D NoC映射环境进行随机初始化;
1‑2)规定3D NoC映射环境可选动作集合为A={映射到第1个资源节点, 映射到第2个资
源节点,……, 映射到第n个资源节点}, 即每个IP核可以映射到任何一个可选的资源节点
上; 在实际映射中, 可选映射节点必须 是尚未映射 其他IP核的资源节点;
1‑3)3D NoC映射环境对于每次IP核映射前需要给出满足3D NoC映射需求的IP核映射
方式; 计算 IP核满足映射需求的映射方式
的方法如下:
其中, xi表示映射序列中第i个IP核映射的资源节点; Tv和Dv分别表示第i个IP核上任务
v的执行时间和截 止期限, Dv根据给定的整个应用的截 止期限计 算获得; fu表示任务v的前置
任务u的完成时间, cuv表示二者之间的通信时间;
表示第k个资源节点的峰值温度,
Θmax表示系统峰值温度约束; 映射序列中每个IP核映射的资源节点均不相同, 也即不存在
多个IP核映射到一个资源节结点的情况; 同时, 映射序列还需满足使整个应用在截止期限
前完成所有任务的执 行, 且系统峰值温度满足预设的温度约束条件;
1‑4)根据3D NoC映射优化目标定义映射环境的动作奖励;
1‑5)3D NoC映射环境从第一个IP核开始映射安排, 直到最后一个IP核映射完成后结
束; 3D NoC映射环境在每一次安排映射前给出当前的映射环境状态st, 以及当前IP核可选
的满足映射需求的映射安排A ′, 接收智能体对当前的IP核的映射安排a({a|a∈A}), 给出当
前映射的即 时奖励rt, 并迭代环境到下一个状态 st+1, 重复这一映射过程直至环境到达结束
状态, 即完成了整个3D NoC系统的IP核映射过程。
3.如权利要求1所述基于强化学习的3D NoC映射优化方法, 其特征在于, 使用 ε ‑Greedy
进行半随机IP核映射 安排:
2‑1)ε‑Greedy方法如下:
也即, 在[0,1)区间产生一个随机数random, 如果random小于ε, 则在当前可选的动作集
合A′中随机选择一个元素作为当前动作, 即当前IP核的映射行为; 否则, 通过深度神经网络权 利 要 求 书 1/2 页
2
CN 115482336 A
2Q对当前状态st下不同IP核映射方式的价值进行预测, 选取价值最大的映射方式作为当前
动作;
2‑2)将步骤2 ‑1)中ε‑Greedy产生的IP核映射行为at输入到步骤1)中的3DNoC映射环境
中, 执行IP核映射行为at, 并根据映射需求给出即时奖励rt, 同时将映射环境从st状态转移
到st+1状态, 并添加状态转移元组(st,at,rt,st+1)到记忆存储单元M中。
4.如权利要求1所述基于强化学习的3D NoC映射优化方法, 其特征在于, 所述步骤3)
中, 使用强化学习方法对不同IP核映射方案进行学习, 并使用深度神经网络Q近似不同IP核
映射方案的价 值:
3‑1)步骤2)中3D NoC映射环境每经过λ次状态转移, 通过对步骤2)的记忆存储单元M中
记录的状态转移元组(st,at,rt,st+1)抽样, 得到训练数据集D S;
3‑2)针对DS中的每个状态转移元组, 计算状态st下采取动作at时对应的真实价 值yt:
其中, γ表示未来奖励系数, maxa′∈AQ(st+1,a′)是通过神经网络Q计算得到的st+1状态下
采取不同可行动作a ′所能获取的最大价值, rt为在状态st下采取动作at后所获得的即时奖
励;
3‑3)将通过步骤3 ‑2)计算得到的真实价值 yt加入到通过步骤3 ‑1)抽样得到的数据集DS
对应的状态转移元组中, 记为(st,at,rt,st+1,yt);
3‑4)把步骤3 ‑3)中得到的数据集DS当作训练数据, 使用mini ‑batch梯度下降方法对神
经网络Q进行训练, 并采用均方误差作为损失函数计算损失值:
其中, Q(st,at)是在状态st下深度神经网络Q预测的采取动作at时的价值。
5.如权利要求1所述基于强化学习的3D NoC映射优化方法, 其特征在于, 所述步骤4)
中, 训练得到的深度神经网络Q, 对不同IP核映射方案的价值进行预测, 并选择输出系统最
优的IP核映射序列:
4‑1)根据实际的IP核映射 需求对步骤1)中的3D NoC映射环境进行初始化, 得到初始状
态st;
4‑2)计算获取状态st下满足映射需求的动作集 合A′;
4‑3)使用步骤3)训练得到的神经网络Q对状态st下的每个可选映射动作a, 进行价值预
测, 即计算Q(st,a), 其中, a∈A ′; 并从中选取价值最大的映射动作作为当前IP核的映射结
果, 即at=argmaxa∈A′Q(st,a);
4‑4)将步骤4 ‑3)中获得的动作at输入到3D NoC映射环境中, 映射环境执行映射安排at,
并进入下一状态st+1;
4‑5)重复步骤4 ‑3)、 步骤4 ‑4)直至3D NoC映射环境到达终止状态, 即完成全部IP核的
映射; 输出步骤4 ‑3)中每次采取的映射 安排, 即3D NoC需求下每次IP核的映射行为。权 利 要 求 书 2/2 页
3
CN 115482336 A
3
专利 一种基于强化学习的3D NoC映射优化方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:32:12上传分享