专利一种吃子复盘学习方法、装置、电子设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111268992.2 (22)申请日 2021.10.28 (71)申请人网易有道信息技术(江苏)有限公司地址 210019 江苏省南京市建邺区嘉陵江东街8号B3栋1单元7层 (72)发明人王玉龙　高圣州　李蒙　孙艳庆　林秀桃　段亦涛　陈虎　倪洪生　 (74)专利代理机构北京风雅颂专利代理有限公司 11403 代理人孙晓凤 (51)Int.Cl. A63F 3/02(2006.01) G06N 20/00(2019.01) (54)发明名称一种吃子复盘学习方法、装置、电子设备及存储介质 (57)摘要本公开提供一种吃子复盘学习方法、装置、电子设备及存储介质，该方法包括：获取用户经过人机交互对弈后的对局数据，并根据所述对局数据确定用户在该次对弈中的多个用户落子点；对于每一个所述用户落子点，确定该用户落子点对应的至少一个推荐落子点；根据该用户落子点及其对应的所述推荐落子点，确定该用户落子点的推荐值；将全部所述推荐值中满足预定条件的所述用户落子点确定为坏手点；对于每个所述坏手点，确定该坏手点对应的目标落子点；根据所述目标落子点，生成复盘演示数据，并将所述复盘演示数据向用户展示。本公开摆脱了复盘学习过程中对于老师指导的依赖，提高用户自主学习的能动性。权利要求书2页说明书14页附图5页 CN 113975783 A 2022.01.28 CN 113975783 A 1.一种吃子复盘学习方法，包括：获取用户经过人机交互对弈后的对局数据，并根据所述对局数据确定用户在该次对弈中的多个用户落子点；对于每一个所述用户落子点，确定该用户落子点对应的至少一个推荐落子点；根据该用户落子点及其对应的所述推荐落子点，确定该用户落子点的推荐值；将全部所述推荐值中满足预定条件的所述用户落子点确定为坏手点；对于每个所述坏手点，确定该坏手点对应的每个所述推荐落子点的胜率值，将所述胜率值中最高的确定为最高胜率值，并将所述最高胜率值对应的所述推荐落子点确定为目标落子点；根据所述目标落子点，生成复盘演示数据，并将所述复盘演示数据向用户展示。 2.根据权利要求1所述的方法，其中，所述确定该用户落子点对应的至少一个推荐落子点，具体包括：确定该用户落子点落子之前的棋盘布局数据；将所述棋盘布局数据输入预先训练的策略网络模型，得到所述策略网络模型输出的至少一个所述推荐落子点。 3.根据权利要求1或2所述的方法，其中，所述策略网络模型的输出还包括用户落子点的推荐度与每个所述推荐落子点对应的推荐度；所述推荐值的计算过程为：推荐值＝用户落子点的推荐度/比所述用户落子点推荐度高的推荐落子点的推荐度总和。 4.根据权利要求1所述的方法，其中，所述对于每个所述坏手点，确定该坏手点对应的每个所述推荐落子点的胜率值，并将最高胜率值对应的所述推荐落子点确定为目标落子点，包括：利用预先训练的估值网络模型和快速走子网络模型，依据快速搜索方式搜索每个所述推荐落子点的胜率值；依据全部所述胜率值为每个所述推荐落子点进行排序，将所述胜率值中最高的确定为最高胜率值，并将所述最高胜率值对应的所述推荐落子点确定为目标落子点。 5.根据权利要求1所述的方法，其中，根据所述目标落子点，生成复盘演示数据，并将所述复盘演示数据向用户展示，包括：确定该目标落子点的棋盘布局数据；将该目标落子点的棋盘布局数据输入预先训练的策略网络模型，得到所述策略网络模型输出的至少一个下一步推荐落子点；利用预先训练的估值网络模型和快速走子网络模型，依据快速搜索方式搜索每个所述下一步推荐落子点的胜率值；依据全部所述胜率值为每个所述下一步推荐落子点进行排序，将所述胜率值中最高的确定为最高胜率值，并将所述最高胜率值对应的所述推荐落子点确定为下一步目标落子点；基于所述下一步目标落子点，重新确定所述棋盘布局数据；响应于确定符合落子结束条件，生成复盘演示数据，并将所述复盘演示数据向用户展示。权　利　要　求　书 1/2 页 2 CN 113975783 A 26.根据权利要求 4或5所述的方法，其中，所述快速搜索方式为M CTS搜索。 7.根据权利要求6所述的方法，其中，所述M CTS搜索的结束条件包括：搜索时间超出5s；或者，最高胜率值比次高胜率值高出50％；其中，所述次高胜率值为与所述最高胜率值最接近的胜率值。 8.一种吃子复盘学习装置，包括：获取模块，获取用户经过人机交互对弈后的对局数据，并根据所述对局数据确定用户在该次对弈中的多个用户落子点；计算模块，对于每一个所述用户落子点，确定该用户落子点对应的至少一个推荐落子点；根据该用户落子点及其对应的所述推荐落子点，确定该用户落子点的推荐值；坏手点模块，将全部所述推荐值中满足预定条件的所述用户落子点确定为坏手点；展示模块，对于每个所述坏手点，确定该坏手点对应的每个所述推荐落子点的胜率值，并将最高胜率值对应的所述推荐落子点确定为目标落子点；根据所述目标落子点，生成复盘演示数据，并将所述复盘演示数据向用户展示。 9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。 10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。权　利　要　求　书 2/2 页 3 CN 113975783 A 3

专利 一种吃子复盘学习方法、装置、电子设备及存储介质

专利一种吃子复盘学习方法、装置、电子设备及存储介质