行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111268992.2 (22)申请日 2021.10.28 (71)申请人 网易有道信息技 术(江苏)有限公司 地址 210019 江苏省南京市 建邺区嘉陵江 东街8号B3栋1单元7层 (72)发明人 王玉龙 高圣州 李蒙 孙艳庆  林秀桃 段亦涛 陈虎 倪洪生  (74)专利代理 机构 北京风雅颂专利代理有限公 司 11403 代理人 孙晓凤 (51)Int.Cl. A63F 3/02(2006.01) G06N 20/00(2019.01) (54)发明名称 一种吃子复盘学习方法、 装置、 电子设备及 存储介质 (57)摘要 本公开提供一种吃子复盘学习方法、 装置、 电子设备及存储介质, 该方法包括: 获取用户经 过人机交互对 弈后的对局数据, 并根据所述对局 数据确定用户在该次对弈中的多个用户落子点; 对于每一个所述用户落子点, 确定该用户落子点 对应的至少一个推荐落子点; 根据该用户落子点 及其对应的所述推荐落子点, 确定该用户落子点 的推荐值; 将全部所述推荐值中满足预定条件的 所述用户落子点确定为坏手点; 对于每个所述坏 手点, 确定该坏手点对应的目标落子点; 根据所 述目标落子点, 生成复盘演示数据, 并将所述复 盘演示数据向用户展示。 本公开摆脱了复盘学习 过程中对于老师指导的依赖, 提高用户自主学习 的能动性。 权利要求书2页 说明书14页 附图5页 CN 113975783 A 2022.01.28 CN 113975783 A 1.一种吃子复盘学习方法, 包括: 获取用户经过人机交互对弈后的对局数据, 并根据 所述对局数据确定用户在该次对弈 中的多个用户落子点; 对于每一个所述用户落子点, 确定该用户落子点对应的至少一个推荐落子点; 根据该 用户落子点及其对应的所述推荐落子点, 确定该用户落子点的推荐值; 将全部所述推荐值中满足预定条件的所述用户落子点确定为坏手点; 对于每个所述坏手点, 确定该坏手点对应的每个所述推荐落子点的胜率值, 将所述胜 率值中最高的确定为最高胜率值, 并将所述最高胜率值对应的所述推荐落子点确定为目标 落子点; 根据所述目标落子点, 生成复盘演示数据, 并将所述复盘演示数据向用户展示。 2.根据权利要求1所述的方法, 其中, 所述确定该用户落子点对应的至少一个推荐落子 点, 具体包括: 确定该用户落子点 落子之前的棋盘布局数据; 将所述棋盘布局数据输入预先训练 的策略网络模型, 得到所述策略网络模型输出的至 少一个所述推荐落子点。 3.根据权利要求1或2所述的方法, 其中, 所述策略网络模型的输出还包括用户落子点 的推荐度与每 个所述推荐落子点对应的推荐度; 所述推荐值的计算过程 为: 推荐值=用户落子点的推荐度/比所述用户落子点推荐度高的推荐落子点的推荐度总 和。 4.根据权利要求1所述的方法, 其中, 所述对于每个所述坏手点, 确定该坏手点对应的 每个所述推荐落子点的胜率值, 并将最高胜率值对应的所述推荐落子点确定为目标落子 点, 包括: 利用预先训练 的估值网络模型和快速走子网络模型, 依据 快速搜索方式搜索每个所述 推荐落子点的胜率 值; 依据全部所述胜率值为每个所述推荐落子点进行排序, 将所述胜率值中最高的确定为 最高胜率 值, 并将所述 最高胜率 值对应的所述推荐落子点确定为目标落子点。 5.根据权利要求1所述的方法, 其中, 根据 所述目标落子点, 生成复盘演示数据, 并将所 述复盘演示数据向用户展示, 包括: 确定该目标落子点的棋盘布局数据; 将该目标落子点的棋盘布局数据输入预先训练的策略网络模型, 得到所述策略网络模 型输出的至少一个下一 步推荐落子点; 利用预先训练 的估值网络模型和快速走子网络模型, 依据 快速搜索方式搜索每个所述 下一步推荐落子点的胜率 值; 依据全部所述胜率值为每个所述下一步推荐落子点进行排序, 将所述胜率值中最高的 确定为最高胜率值, 并将所述最高胜率值对应的所述推荐落子点确定为下一步目标落子 点; 基于所述下一 步目标落子点, 重新确定所述棋盘布局数据; 响应于确定符合落子结束条件, 生成复盘演示数据, 并将所述复盘演示数据向用户展 示。权 利 要 求 书 1/2 页 2 CN 113975783 A 26.根据权利要求 4或5所述的方法, 其中, 所述快速 搜索方式为M CTS搜索。 7.根据权利要求6所述的方法, 其中, 所述M CTS搜索的结束条件 包括: 搜索时间超出5s; 或者, 最高胜率 值比次高胜率 值高出50%; 其中, 所述次高胜率 值为与所述 最高胜率 值最接近的胜率 值。 8.一种吃子复盘学习装置, 包括: 获取模块, 获取用户经过人机交互对弈后的对局数据, 并根据所述对局数据确定用户 在该次对弈中的多个用户落子点; 计算模块, 对于每一个所述用户落子点, 确定该用户落子点对应的至少一个推荐落子 点; 根据该用户落子点及其对应的所述推荐落子点, 确定该用户落子点的推荐值; 坏手点模块, 将全部所述推荐值中满足预定条件的所述用户落子点确定为坏手点; 展示模块, 对于每个所述坏手点, 确定该坏手点对应的每个所述推荐落子点的胜率值, 并将最高胜率值对应的所述推荐落子点确定为 目标落子点; 根据所述 目标落子点, 生成复 盘演示数据, 并将所述复盘演示数据向用户展示。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方 法。 10.一种非暂态计算机可读存储介质, 所述非暂态计算机可读存储介质存储计算机指 令, 其特征在于, 所述计算机指令用于使计算机执 行权利要求1至7任一所述方法。权 利 要 求 书 2/2 页 3 CN 113975783 A 3

.PDF文档 专利 一种吃子复盘学习方法、装置、电子设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种吃子复盘学习方法、装置、电子设备及存储介质 第 1 页 专利 一种吃子复盘学习方法、装置、电子设备及存储介质 第 2 页 专利 一种吃子复盘学习方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 18:58:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。