行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210449623.1 (22)申请日 2022.04.24 (71)申请人 浙江大学台州研究院 地址 318050 浙江省台州市 路桥区珠光 街 201号 申请人 台州捷码科技有限公司 (72)发明人 夏莹杰 武建伟 陈天祥 刘瑞峰  张雷  (74)专利代理 机构 台州市南方商标专利代理有 限公司 3 3225 专利代理师 白家驹 (51)Int.Cl. G06F 9/50(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称 基于任务选择过程强化学习的大数据作业 调度方法 (57)摘要 本发明公开了一种基于任务选择过程强化 学习的大数据作业调度方法, 包括如下步骤: S1 对集群中作业向量化处理; S2对于被选择的任务 节点, 智能体确定调度其多少个任务实例; S3对 选择的任务节 点, 资源匹配模块选定资源最匹配 的任务执行器种类, 然后从该任务执行器种类中 选择空闲的任务执行器来准备执行当前被调度 的任务实例; S4在大数据任务执行平台部署调度 的任务实例并执行。 本发明适应性较强, 对于不 同类型的大 数据作业具有通用性。 权利要求书2页 说明书5页 附图1页 CN 114860435 A 2022.08.05 CN 114860435 A 1.一种基于任务选择过程强化学习的大数据作业调度方法, 其特征在于, 包括如下步 骤: S1对集群中作业向量化处理: 若作业集合未完成, 将嵌入向量输入到强化学习模块中 进行决策; 进行调度的决策网络在全连接层处理完成后, 对各个任务节点进行差异化值再 处理过程; 最终, 强化学习模块的智能体通过设置softmax层选择下一个被调度的任务节 点; S2对于被选择的任务节点, 智能体确定调度其多少个任务实例; 对应的决策网络, 在全 连接层处理完后和softmax层, 降低无法被调度的作业被选中的概率, 根据被选择的任务节 点的最高概 率的任务执 行器数量作为具体调度的任务实例数; S3对选择的任务节点, 资源匹配模块选定资源最匹配的任务执行器种类, 然后从该任 务执行器种类中选择空 闲的任务执 行器来准备执行当前被调度的任务实例; S4在大数据任务执行平台部署调度的任务实例并执行: 当前批次的作业子集执行结束 后, 根据这一轮调度的整体调度时间来量化动作的奖励值; 如果智能体的决策提升了调度 效果, 那么智能体将会获得一个正向的奖励值, 并增大之后选择该决策的概率; 反之, 智能 体会获得一个反向的奖励值, 并减小之后选择 该决策的概 率。 2.根据权利要求1所述的基于任务选择过程强化学习的大数据作业调度方法, 其特征 在于, 所述 步骤S1包括: S11使用图卷积神经网络来对图进行转化操作, 处理完后的嵌入向量分成节点级别、 作 业级别以及全局级别三类; S12嵌入向量在决策网络的最后一个全连接层处理后, 判断各个任务节点是否可以被 调度。 若无法调度, 则减少任务节点对应的向量 值; 否则维持不变; S13最终, 决策网络会设置softmax层来做进一步处理, 选择出下一个被调度的任务节 点。 3.根据权利要求1所述的基于任务选择过程强化学习的大数据作业调度方法, 其特征 在于, 所述 步骤S2包括: S21判断被选择的任务节点所在的作业是否可选择, 如果任务节点所在的作业无法被 选择, 那么在决策网络全连接层处 理后, 将该作业所对应的值减少; 否则维持不变; S22决策网络通过softmax层的进一 步处理来降低无法被调度的作业被选中的概 率; S23根据被选择的任务节点所在的作业, 计算出矩阵中对应的行向量, 并选择该行向量 中最高概 率的任务执 行器数量作为具体调度的任务实例数。 4.根据权利要求3所述的基于任务选择过程强化学习的大数据作业调度方法, 其特征 在于, 所述 步骤S3包括: S31当智能体确定好下一个被调度的任务节点时, 资源匹配模块计算该任务节点和任 务执行器种类的匹配值, 并且选 定最大匹配值所对应的任务执 行器种类; S32资源匹配模块从选定的任务执行器种类 中选择空闲 的任务执行器来准备执行当前 被调度的任务实例。 5.根据权利要求1所述的基于任务选择过程强化学习的大数据作业调度方法, 其特征 在于, 所述 步骤S4包括: S41当智能体确定好下一个被调度的任务节点和对应的任务节点实例后, 资源匹配模权 利 要 求 书 1/2 页 2 CN 114860435 A 2块选择的任务执 行器将在大 数据作业 集群中对给定的任务实例进行 执行; S42当前调度周期结束后, 以作业的整体调度时间作为自变量, 利用奖励函数获得相应 的奖励值; 智能体利用正向或反向的奖励值反馈, 进 行不断学习, 从而探索出一系列最佳动 作, 以最大化累计奖励期望值。权 利 要 求 书 2/2 页 3 CN 114860435 A 3

.PDF文档 专利 基于任务选择过程强化学习的大数据作业调度方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于任务选择过程强化学习的大数据作业调度方法 第 1 页 专利 基于任务选择过程强化学习的大数据作业调度方法 第 2 页 专利 基于任务选择过程强化学习的大数据作业调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:15:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。