行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221086857 7.9 (22)申请日 2022.07.22 (71)申请人 博锐尚格科技股份有限公司 地址 100044 北京市西城区德胜门外大街 11号5幢221室 (72)发明人 李昕 孙一凫  (74)专利代理 机构 北京劲创知识产权代理事务 所(普通合伙) 11589 专利代理师 王闯 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 50/06(2012.01) G06N 20/00(2019.01) H02J 3/00(2006.01) H02J 3/32(2006.01) (54)发明名称 基于强化学习算法的电池储能容量估计方 法及系统 (57)摘要 本发明是关于基于强化学习算法的电池储 能容量估计方法及系统。 包括: 根据不同电池容 量下的策略网络, 模拟加入储能电池后, 储能电 池的充放电动作, 得到最优策略, 并计算每年节 省的电费; 计算不同电池容量下在投资回报期的 内部收益率; 在可接受的内部收益率范围内, 根 据贷款利率, 计算不同电池容量下在投资回报期 内的财务成本; 根据初始投资和财务成本, 计算 不同电池容量下的利润; 输出利润最高的电池容 量作为最终的电池容量选择方案。 本发明能够辅 助做出储能方案的决策, 基于历史数据可给出较 精确的计算结果支撑投资决策, 各种条件可以灵 活变动, 并能给出相应变化的精确计算结果, 基 于电价波动的特征设定可给出计算不确定性和 投资回报风险。 权利要求书2页 说明书8页 附图4页 CN 115358528 A 2022.11.18 CN 115358528 A 1.基于强化学习算法的电池 储能容量估计方法, 其特 征在于, 包括: 根据不同电池容量下的策略网络, 模拟加入储能电池后, 储能电池的充放电动作, 得到 最优策略, 并计算在所述 最优策略下每年节省的电费; 将所述每年节省的电费作为净现金流, 计算不同电池容量下在投资回报期的内部收益 率; 在可接受的内部收益率范围内, 根据贷款利率, 计算不同电池容量下在所述投资回报 期内的财务成本; 根据初始投资和所述财务成本, 计算 不同电池容 量下的利 润; 输出利润最高的电池容 量作为最终的电池容 量选择方案。 2.根据权利要求1所述的方法, 其特征在于, 还包括采用强化学习的Q ‑Learning算法训 练得到所述策略网络的步骤, 具体包括: 步骤1、 初始化 算法参数和Q表; 步骤2、 输入环境状态, 查询电池所有可以采取的动作; 步骤3、 在Q表中查询 在当前状态下, 电池各个可以采取的动作的Q值, 并根据查询到的Q 值选择动作; 步骤4、 根据选择的动作计算奖励; 步骤5、 更新电池内电价; 步骤6、 更新 Q表; 步骤7、 更新电池 储能状态和环境状态; 重复执行步骤2‑7, 直至算法收敛。 3.根据权利要求2所述的方法, 其特征在于, 所述步骤3中, 根据查询到的Q值选择动作, 具体包括: 如果Q值都为0, 则对所有能够采取的动作赋予相同的概率, 然后根据概率选择动作; 否 则提高Q值最高动作的概 率, 然后根据概 率选择动作。 4.根据权利要求2所述的方法, 其特 征在于, 所述 步骤4具体包括: 在电池放电状态下, 若电池内电价高于电网电价 时, 计算得到负奖励, 若电池内电价不 高于电网电价, 计算得到正奖励; 在电池充电状态下, 若电池内电价不大于电网电价, 计算得到正奖励, 否则不予以奖 励; 在电池既不充电也 不放电的状态下, 不予以奖励。 5.根据权利要求1 ‑4任一项所述的方法, 其特 征在于, 内部收益 率的计算公式为: 其中, NPV为净现值, CFi为第i年的净现金流, n 为投资回报期, IR R为内部收益 率。 6.基于强化学习算法的电池 储能容量估计系统, 其特 征在于, 包括: 第一计算模块, 用于根据不同电池容量下的策略网络, 模拟加入储能电池后, 储能电池 的充放电动作, 得到最优策略, 并计算在所述 最优策略下每年节省的电费; 第二计算模块, 用于将所述每年节省的 电费作为净现金流, 计算不同电池容量下在投权 利 要 求 书 1/2 页 2 CN 115358528 A 2资回报期的内部收益 率; 第三计算模块, 用于在可接受 的内部收益率范围内, 根据贷款利率, 计算不同电池容量 下在所述投资回报期内的财务成本; 第四计算模块, 用于根据初始投资和所述财务成本, 计算 不同电池容 量下的利 润; 方案选择模块, 用于 输出利润最高的电池容 量作为最终的电池容 量选择方案。 7.根据权利要求6所述的系统, 其特征在于, 还包括用于采用强化学习的Q ‑Learning算 法训练得到所述策略网络的训练模块, 所述训练模块具体包括: 初始化单 元, 用于初始化 算法参数和Q表; 查询单元, 用于输入环境状态, 查询电池所有可以采取的动作; 选择单元, 用于在Q表中查询在当前状态下, 电池各个可以采取的动作的Q值, 并根据查 询到的Q值选择动作; 计算单元, 用于根据选择的动作计算奖励; 第一更新单 元, 用于更新电池内电价; 第二更新单 元, 用于更新 Q表; 第三更新单 元, 用于更新电池 储能状态和环境状态; 调用单元, 用于重复调用所述初始化单元、 第一查询单元、 第二查询单元、 计算单元、 第 一更新单 元、 第二更新单 元和第三更新单 元, 直至算法收敛。 8.根据权利要求7 所述的系统, 其特 征在于, 所述选择 单元, 具体用于: 如果Q值都为0, 则对所有能够采取的动作赋予相同的概率, 然后根据概率选择动作; 否 则提高Q值最高动作的概 率, 然后根据概 率选择动作。 9.一种终端设备, 其特 征在于, 包括: 处理器; 以及 存储器, 其上存储有可执行代码, 当所述可执行代码被所述处理器执行时, 使所述处理 器执行如权利要求1 ‑5中任一项所述的方法。 10.一种非暂时性机器可读存储介质, 其上存储有可执行代码, 其特征在于, 当所述可 执行代码被电子设备的处理器执行时, 使所述处理器执行如权利要求1 ‑5中任一项所述的 方法。权 利 要 求 书 2/2 页 3 CN 115358528 A 3

.PDF文档 专利 基于强化学习算法的电池储能容量估计方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习算法的电池储能容量估计方法及系统 第 1 页 专利 基于强化学习算法的电池储能容量估计方法及系统 第 2 页 专利 基于强化学习算法的电池储能容量估计方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:57:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。