行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210902137.0 (22)申请日 2022.07.29 (71)申请人 白杨时代 (北京) 科技有限公司 地址 100094 北京市海淀区北清路81号院 二区3号楼10层10 02-3室 (72)发明人 黄安付 彭鹏 尹辉  (74)专利代理 机构 北京信远 达知识产权代理有 限公司 1 1304 专利代理师 赵晓荣 (51)Int.Cl. G06Q 10/08(2012.01) G06N 20/00(2019.01) G06Q 30/02(2012.01) G06F 30/27(2020.01) (54)发明名称 一种配送中心的选 址方法及装置 (57)摘要 本申请公开了一种配送中心的选址方法及 装置, 主要应用于军事领域。 该方法包括: 根据目 标区域的环 境参数, 构建目标区域的目标仿真环 境; 将配送中心在目标仿真环 境中的当前选址位 置输入至用于配送中心选址的强化学习模型; 获 取强化学习模型输出的配送中心在目标仿真环 境中的建议选址位置; 建议选址位置与当前选址 位置不一致时, 建议选址位置用于变更配送中心 在目标区域的选址位置。 通过仿真环 境建模可以 获得精确度较高的仿真环境, 而将环 境建模和强 化学习相结合, 便可依托于精准的仿真环境, 利 用强化学习算法动态选取配送中心在仿真环境 中的建议选址位置, 从而获得配送中心的最优选 址位置, 实现配送中心的合理选址, 最大化地发 挥配送中心的作用。 权利要求书2页 说明书12页 附图3页 CN 114971502 A 2022.08.30 CN 114971502 A 1.一种配送中心的选 址方法, 其特 征在于, 包括: 根据目标区域的环境 参数, 构建所述目标区域的目标仿真环境; 将配送中心在所述目标仿真环境中的当前选址位置输入至用于配送中心选址的强化 学习模型; 获取所述强化学习模型输出的所述配送中心在所述目标仿真环境中的建议选址位置; 所述建议选址位置与所述当前选址位置不一致时, 所述建议选址位置用于变更所述配送中 心在所述目标区域的选 址位置。 2.根据权利要求1所述的方法, 其特 征在于, 所述强化学习模型通过如下步骤获取: 确定所述强化学习模型的构建参数, 并根据所述构建参数 搭建初始模型; 基于所述初始模型的输出值和所述构建参数 更新所述初始模型而得到新的模型; 以所述新的模型的输出值和所述构建参数继续更新所述新的模型, 循环迭代直至所述 新的模型收敛而得到所述强化学习模型。 3.根据权利要求2所述的方法, 其特征在于, 所述构建参数包括所述强化学习 模型的状 态信息集 合、 动作信息集 合和动作奖励真实值; 所述确定所述强化学习模型的构建参数, 包括: 以所述配送中心在所述目标仿真环境中的多个不同的可用模拟位置构建所述状态信 息集合; 根据所述多个不同的可用模拟位置和预先设定的选址限制条件, 分别确定所述配送中 心在所述目标仿真环 境中的多个不同的可选位置, 并以所述多个不同的可选位置构建所述 动作信息集 合; 基于预先设定的多个选址因素分别确定所述配送中心从所述多个不同的可用模拟位 置移至对应的所述多个不同的可选位置的动作奖励真实值。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述构建参数搭建初始模型, 包 括: 根据所述状态信 息集合和所述动作信 息集合构建初始矩阵作为所述初始模型; 所述初 始矩阵中, 每一列表示所述状态信息集合中的一个可用模拟位置, 每一行表示所述动作信 息集合中的一个可选位置; 将所述初始矩阵的所有元素的值置0作为所述初始模型的输出值; 所述输出值用于表 示所述初始模型的初始动作奖励估计值。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述初始模型的输出值和所述构 建参数更新所述初始模型而得到新的模型, 包括: 从所述状态信息集 合中择一作为所述配送中心的当前模拟位置; 根据所述当前模拟位置和所述选址限制条件, 从所述动作信 息集合中确定多个不同的 当前可选位置; 基于所述多个选址因素, 分别确定所述配送中心从所述当前模拟位置移至所述多个不 同的当前 可选位置的当前动作奖励真实值; 基于预先设定的强化学习率, 并根据 所述初始动作奖励估计值和所述当前动作奖励真 实值, 确定新的动作奖励估计值; 利用所述 新的动作奖励估计值更新所述初始 矩阵而得到所述 新的强化学习模型。权 利 要 求 书 1/2 页 2 CN 114971502 A 26.根据权利要求5所述的方法, 其特征在于, 所述基于预先设定的强化学习率, 并根据 所述初始动作奖励估计值和所述当前动作奖励真实值, 确定新的动作奖励估计值, 包括: 获取所述初始动作奖励估计值和所述当前动作奖励真实值之间的奖励估计误差; 基于预先设定的强化学习率, 并根据所述初始动作奖励估计值和所述奖励估计误差, 确定所述 新的动作奖励估计值。 7.根据权利要求3至6任一项所述的方法, 其特征在于, 所述获取所述强化学习模型输 出的所述配送中心在所述目标仿真环境中的建议选 址位置, 包括: 分别获取所述强化学习模型输出的所述配送中心从所述可用模拟位置移至所述多个 不同的可选位置的动作奖励估计值; 根据获取到的动作奖励估计值中的最大值从所述多个不同的可选位置中确定所述建 议选址位置。 8.根据权利要求3至6任一项所述的方法, 其特征在于, 所述基于预先设定的多个选址 因素分别确定所述配送中心从所述多个不同的可用模拟位置移至对应的所述多个不同的 可选位置的动作奖励真实值, 包括: 获取所述多个选 址因素对应的奖励权 重; 基于所述奖励权重, 分别确定所述配送中心从所述多个不同的可用模拟位置移至对应 的所述多个不同的可选位置的动作奖励真实值。 9.根据权利要求1至6任一项所述的方法, 其特征在于, 所述环境参数包括地理参数、 磁 场参数和气象参数; 所述根据目标区域的环境 参数, 构建所述目标区域的目标仿真环境, 包括: 根据所述 地理参数, 构建所述目标仿真环境中的地理环境; 根据所述磁场参数, 构建所述目标仿真环境中的磁场环境; 根据所述气象参数, 构建所述目标仿真环境中的气象环境。 10.一种配送中心的选 址装置, 其特 征在于, 包括: 目标仿真环境构建模块, 用于根据目标区域的环境参数, 构建所述目标区域的目标仿 真环境; 强化学习 模块, 用于将配送中心在所述目标仿真环境中的当前选址位置输入至用于配 送中心选 址的强化学习模型; 配送中心选址模块, 用于获取所述强化学习 模型输出的所述配送中心在所述目标仿真 环境中的建议选址位置; 所述建议选址位置与所述当前选址位置不一致时, 所述建议选址 位置用于变更 所述配送中心在所述目标区域的选 址位置。权 利 要 求 书 2/2 页 3 CN 114971502 A 3

.PDF文档 专利 一种配送中心的选址方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种配送中心的选址方法及装置 第 1 页 专利 一种配送中心的选址方法及装置 第 2 页 专利 一种配送中心的选址方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:24:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。