专利 基于强化学习算法的电池储能容量估计方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221086857 7.9 (22)申请日 2022.07.22 (71)申请人博锐尚格科技股份有限公司地址 100044 北京市西城区德胜门外大街 11号5幢221室 (72)发明人李昕　孙一凫　 (74)专利代理机构北京劲创知识产权代理事务所(普通合伙) 11589 专利代理师王闯 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 50/06(2012.01) G06N 20/00(2019.01) H02J 3/00(2006.01) H02J 3/32(2006.01) (54)发明名称基于强化学习算法的电池储能容量估计方法及系统 (57)摘要本发明是关于基于强化学习算法的电池储能容量估计方法及系统。包括：根据不同电池容量下的策略网络，模拟加入储能电池后，储能电池的充放电动作，得到最优策略，并计算每年节省的电费；计算不同电池容量下在投资回报期的内部收益率；在可接受的内部收益率范围内，根据贷款利率，计算不同电池容量下在投资回报期内的财务成本；根据初始投资和财务成本，计算不同电池容量下的利润；输出利润最高的电池容量作为最终的电池容量选择方案。本发明能够辅助做出储能方案的决策，基于历史数据可给出较精确的计算结果支撑投资决策，各种条件可以灵活变动，并能给出相应变化的精确计算结果，基于电价波动的特征设定可给出计算不确定性和投资回报风险。权利要求书2页说明书8页附图4页 CN 115358528 A 2022.11.18 CN 115358528 A 1.基于强化学习算法的电池储能容量估计方法，其特征在于，包括：根据不同电池容量下的策略网络，模拟加入储能电池后，储能电池的充放电动作，得到最优策略，并计算在所述最优策略下每年节省的电费；将所述每年节省的电费作为净现金流，计算不同电池容量下在投资回报期的内部收益率；在可接受的内部收益率范围内，根据贷款利率，计算不同电池容量下在所述投资回报期内的财务成本；根据初始投资和所述财务成本，计算不同电池容量下的利润；输出利润最高的电池容量作为最终的电池容量选择方案。 2.根据权利要求1所述的方法，其特征在于，还包括采用强化学习的Q ‑Learning算法训练得到所述策略网络的步骤，具体包括：步骤1、初始化算法参数和Q表；步骤2、输入环境状态，查询电池所有可以采取的动作；步骤3、在Q表中查询在当前状态下，电池各个可以采取的动作的Q值，并根据查询到的Q 值选择动作；步骤4、根据选择的动作计算奖励；步骤5、更新电池内电价；步骤6、更新 Q表；步骤7、更新电池储能状态和环境状态；重复执行步骤2‑7，直至算法收敛。 3.根据权利要求2所述的方法，其特征在于，所述步骤3中，根据查询到的Q值选择动作，具体包括：如果Q值都为0，则对所有能够采取的动作赋予相同的概率，然后根据概率选择动作；否则提高Q值最高动作的概率，然后根据概率选择动作。 4.根据权利要求2所述的方法，其特征在于，所述步骤4具体包括：在电池放电状态下，若电池内电价高于电网电价时，计算得到负奖励，若电池内电价不高于电网电价，计算得到正奖励；在电池充电状态下，若电池内电价不大于电网电价，计算得到正奖励，否则不予以奖励；在电池既不充电也不放电的状态下，不予以奖励。 5.根据权利要求1 ‑4任一项所述的方法，其特征在于，内部收益率的计算公式为：其中， NPV为净现值， CFi为第i年的净现金流， n 为投资回报期， IR R为内部收益率。 6.基于强化学习算法的电池储能容量估计系统，其特征在于，包括：第一计算模块，用于根据不同电池容量下的策略网络，模拟加入储能电池后，储能电池的充放电动作，得到最优策略，并计算在所述最优策略下每年节省的电费；第二计算模块，用于将所述每年节省的电费作为净现金流，计算不同电池容量下在投权　利　要　求　书 1/2 页 2 CN 115358528 A 2资回报期的内部收益率；第三计算模块，用于在可接受的内部收益率范围内，根据贷款利率，计算不同电池容量下在所述投资回报期内的财务成本；第四计算模块，用于根据初始投资和所述财务成本，计算不同电池容量下的利润；方案选择模块，用于输出利润最高的电池容量作为最终的电池容量选择方案。 7.根据权利要求6所述的系统，其特征在于，还包括用于采用强化学习的Q ‑Learning算法训练得到所述策略网络的训练模块，所述训练模块具体包括：初始化单元，用于初始化算法参数和Q表；查询单元，用于输入环境状态，查询电池所有可以采取的动作；选择单元，用于在Q表中查询在当前状态下，电池各个可以采取的动作的Q值，并根据查询到的Q值选择动作；计算单元，用于根据选择的动作计算奖励；第一更新单元，用于更新电池内电价；第二更新单元，用于更新 Q表；第三更新单元，用于更新电池储能状态和环境状态；调用单元，用于重复调用所述初始化单元、第一查询单元、第二查询单元、计算单元、第一更新单元、第二更新单元和第三更新单元，直至算法收敛。 8.根据权利要求7 所述的系统，其特征在于，所述选择单元，具体用于：如果Q值都为0，则对所有能够采取的动作赋予相同的概率，然后根据概率选择动作；否则提高Q值最高动作的概率，然后根据概率选择动作。 9.一种终端设备，其特征在于，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1 ‑5中任一项所述的方法。 10.一种非暂时性机器可读存储介质，其上存储有可执行代码，其特征在于，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1 ‑5中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115358528 A 3

专利 基于强化学习算法的电池储能容量估计方法及系统

专利基于强化学习算法的电池储能容量估计方法及系统