Sarsa与Q-learning的区别是?
A、Sarsa是off-policy,而Q-learning是on-policy;
B、Sarsa是on-policy,而Q-learning是off-policy;
C、Q-learning在算法更新时,对应的下一个动作并没有执行,而sarsa的下一个动作在这次更新时已经确定了;
D、Q-learning是一种保守的算法,sarsa是一种贪婪勇敢的算法
发布时间:2025-06-21 19:59:13
A、Sarsa是off-policy,而Q-learning是on-policy;
B、Sarsa是on-policy,而Q-learning是off-policy;
C、Q-learning在算法更新时,对应的下一个动作并没有执行,而sarsa的下一个动作在这次更新时已经确定了;
D、Q-learning是一种保守的算法,sarsa是一种贪婪勇敢的算法