请在 下方输入 要搜索的题目:

AlphaGo的策略网络(Policy Network)主要表达了一个根据当前棋局状态获得下一个动作的函数,以下哪些学习方法被用来学习该函数()

:监督学习
B、强化学习
C、非监督学习
D、半监督学习

发布时间:2024-12-23 17:20:50
推荐参考答案 ( 由 快搜搜题库 官方老师解答 )
联系客服
答案:A,B
专业技术学习
专业技术学习
搜搜题库系统