请在 下方输入 要搜索的题目:

中国大学MOOC: 在强化学习中,可以通过如下操作得到一个最优的策略( )

中国大学MOO
C、 在强化学习中,可以通过如下操作得到一个最优的策略( )

发布时间:2025-06-30 23:09:56
推荐参考答案 ( 由 快搜搜题库 官方老师解答 )
联系客服
答案:在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在未来可获得反馈值的最大期望。
专业技术学习
专业技术学习
搜搜题库系统