请在下方输入要搜索的题目：

AlphaGo的策略网络（Policy Network）主要表达了一个根据当前棋局状态获得下一个动作的函数，以下哪些学习方法被用来学习该函数（）

：监督学习
B、强化学习
C、非监督学习
D、半监督学习

发布时间：2024-12-23 17:20:50

推荐参考答案 ( 由快搜搜题库官方老师解答 )

联系客服

答案：A,B

专业技术学习

相关试题

专业技术学习

搜搜题库系统

教师资格证面试结构化面试题库注会试题题库综合知识题库及答案信息技术考试题库计算机题库及答案社工师题库心理学考试题库法律基础知识题库言语理解题库初级考试题库常识题库及答案图形推理题库事业编制考试真题库幼儿教师考试题库全部公务员题库app 招聘笔试题库中国题库网社区考试题库及答案医学职业能力测试题库教师职业道德题库