行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211180402.5 (22)申请日 2022.09.27 (71)申请人 浙江工业大 学 地址 310006 浙江省杭州市拱 墅区朝晖六 区潮王路18号 (72)发明人 李甜甜 李子俊 曹斌 范菁  (74)专利代理 机构 杭州浙科专利事务所(普通 合伙) 33213 专利代理师 汤明 (51)Int.Cl. G06T 17/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于强化学习的3D N oC映射优化方法 (57)摘要 本发明公开了一种基于强化学习的3D  NoC 映射优化方法, 属于运筹优化管理领域。 其具体 步骤如下: 首先根据3D  NoC映射需求对 IP核映射 进行数学建模, 构建3D  NoC映射环境; 然后使用 ε‑Greedy方法在3D  NoC映射环境中进行半随机 IP核映射安排, 同时使用强化学习方法对半随机 IP核映射过程进行学习, 即从不同的IP核映射之 间的价值差异中进行学习, 使深度神经网络能够 近似不同IP 核映射的价值; 最后通过使用深度神 经网络对实际3D  NoC映射需求下不同IP核映射 的价值进行预测, 然后选择输出系统优化的满足 3D NoC映射需求的IP 核映射序列。 本发明构建的 基于强化学习的3D  NoC映射优化方法具有 映射 效率高、 优化效果 好的特点。 权利要求书2页 说明书6页 附图2页 CN 115482336 A 2022.12.16 CN 115482336 A 1.一种基于强化学习的3D  NoC映射优化方法, 其特 征在于, 包 含以下步骤: 1)对3D NoC映射过程进行建模, 构建3D  NoC映射环境; 2)使用 ε‑Greedy方法在步骤1)构建的3D  NoC映射环境中进行半随机IP核映射方案; 3)基于步骤2)得到的IP核映射安排, 使用强化学习方法对不同IP核映射的价值差异进 行学习, 并使用深度神经网络Q近似不同IP核映射的价 值; 4)基于步骤3)训练得到的深度神经网络Q, 对不同IP核映射的价值进行预测, 选择输出 较优的IP核映射方案 。 2.如权利要求1所述基于强化学习的3D  NoC映射优化方法, 其特征在于, 所述步骤1) 中, 根据3D  NoC映射需求对3D  NoC映射建模, 构建3D  NoC映射环境的方法: 1‑1)根据映射需求的可 行范围对3D  NoC映射环境进行随机初始化; 1‑2)规定3D  NoC映射环境可选动作集合为A={映射到第1个资源节点, 映射到第2个资 源节点,……, 映射到第n个资源节点}, 即每个IP核可以映射到任何一个可选的资源节点 上; 在实际映射中, 可选映射节点必须 是尚未映射 其他IP核的资源节点; 1‑3)3D NoC映射环境对于每次IP核映射前需要给出满足3D  NoC映射需求的IP核映射 方式; 计算 IP核满足映射需求的映射方式 的方法如下: 其中, xi表示映射序列中第i个IP核映射的资源节点; Tv和Dv分别表示第i个IP核上任务 v的执行时间和截 止期限, Dv根据给定的整个应用的截 止期限计 算获得; fu表示任务v的前置 任务u的完成时间, cuv表示二者之间的通信时间; 表示第k个资源节点的峰值温度, Θmax表示系统峰值温度约束; 映射序列中每个IP核映射的资源节点均不相同, 也即不存在 多个IP核映射到一个资源节结点的情况; 同时, 映射序列还需满足使整个应用在截止期限 前完成所有任务的执 行, 且系统峰值温度满足预设的温度约束条件; 1‑4)根据3D NoC映射优化目标定义映射环境的动作奖励; 1‑5)3D NoC映射环境从第一个IP核开始映射安排, 直到最后一个IP核映射完成后结 束; 3D NoC映射环境在每一次安排映射前给出当前的映射环境状态st, 以及当前IP核可选 的满足映射需求的映射安排A ′, 接收智能体对当前的IP核的映射安排a({a|a∈A}), 给出当 前映射的即 时奖励rt, 并迭代环境到下一个状态 st+1, 重复这一映射过程直至环境到达结束 状态, 即完成了整个3D  NoC系统的IP核映射过程。 3.如权利要求1所述基于强化学习的3D  NoC映射优化方法, 其特征在于, 使用 ε ‑Greedy 进行半随机IP核映射 安排: 2‑1)ε‑Greedy方法如下: 也即, 在[0,1)区间产生一个随机数random, 如果random小于ε, 则在当前可选的动作集 合A′中随机选择一个元素作为当前动作, 即当前IP核的映射行为; 否则, 通过深度神经网络权 利 要 求 书 1/2 页 2 CN 115482336 A 2Q对当前状态st下不同IP核映射方式的价值进行预测, 选取价值最大的映射方式作为当前 动作; 2‑2)将步骤2 ‑1)中ε‑Greedy产生的IP核映射行为at输入到步骤1)中的3DNoC映射环境 中, 执行IP核映射行为at, 并根据映射需求给出即时奖励rt, 同时将映射环境从st状态转移 到st+1状态, 并添加状态转移元组(st,at,rt,st+1)到记忆存储单元M中。 4.如权利要求1所述基于强化学习的3D  NoC映射优化方法, 其特征在于, 所述步骤3) 中, 使用强化学习方法对不同IP核映射方案进行学习, 并使用深度神经网络Q近似不同IP核 映射方案的价 值: 3‑1)步骤2)中3D  NoC映射环境每经过λ次状态转移, 通过对步骤2)的记忆存储单元M中 记录的状态转移元组(st,at,rt,st+1)抽样, 得到训练数据集D S; 3‑2)针对DS中的每个状态转移元组, 计算状态st下采取动作at时对应的真实价 值yt: 其中, γ表示未来奖励系数, maxa′∈AQ(st+1,a′)是通过神经网络Q计算得到的st+1状态下 采取不同可行动作a ′所能获取的最大价值, rt为在状态st下采取动作at后所获得的即时奖 励; 3‑3)将通过步骤3 ‑2)计算得到的真实价值 yt加入到通过步骤3 ‑1)抽样得到的数据集DS 对应的状态转移元组中, 记为(st,at,rt,st+1,yt); 3‑4)把步骤3 ‑3)中得到的数据集DS当作训练数据, 使用mini ‑batch梯度下降方法对神 经网络Q进行训练, 并采用均方误差作为损失函数计算损失值: 其中, Q(st,at)是在状态st下深度神经网络Q预测的采取动作at时的价值。 5.如权利要求1所述基于强化学习的3D  NoC映射优化方法, 其特征在于, 所述步骤4) 中, 训练得到的深度神经网络Q, 对不同IP核映射方案的价值进行预测, 并选择输出系统最 优的IP核映射序列: 4‑1)根据实际的IP核映射 需求对步骤1)中的3D  NoC映射环境进行初始化, 得到初始状 态st; 4‑2)计算获取状态st下满足映射需求的动作集 合A′; 4‑3)使用步骤3)训练得到的神经网络Q对状态st下的每个可选映射动作a, 进行价值预 测, 即计算Q(st,a), 其中, a∈A ′; 并从中选取价值最大的映射动作作为当前IP核的映射结 果, 即at=argmaxa∈A′Q(st,a); 4‑4)将步骤4 ‑3)中获得的动作at输入到3D  NoC映射环境中, 映射环境执行映射安排at, 并进入下一状态st+1; 4‑5)重复步骤4 ‑3)、 步骤4 ‑4)直至3D  NoC映射环境到达终止状态, 即完成全部IP核的 映射; 输出步骤4 ‑3)中每次采取的映射 安排, 即3D NoC需求下每次IP核的映射行为。权 利 要 求 书 2/2 页 3 CN 115482336 A 3

.PDF文档 专利 一种基于强化学习的3D NoC映射优化方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的3D NoC映射优化方法 第 1 页 专利 一种基于强化学习的3D NoC映射优化方法 第 2 页 专利 一种基于强化学习的3D NoC映射优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:32:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。