请在下方输入要搜索的题目：

目前强化学习探索策略主要有将特定状态-动作对的价值函数用计数器的频数统计的蒙特卡罗方法和基于步骤样例学习的时间差分方法。

A、对
B、错

发布时间：2025-05-11 19:20:35

推荐参考答案 ( 由快搜搜题库官方老师解答 )

联系客服

答案：对

专业技术学习

相关试题

专业技术学习

搜搜题库系统

专升本题库护理招聘考试题库华图在线题库行测题库国家试题库管理知识题库教师业务考试题库申论题库及答案协警考试题库执业中药师考试题库及答案公基题库科技常识大全题库公务员法题库医学基础知识事业单位考试题库医考题库考公题库社区考试题库南方电网考试题库小学教师资格题库社会工作者考试题库