在本章内容范围内,“在状态,按照某个策略行动后在未来所获得回报值的期望”,这句话描述了状态的( B );“在状态,按照某个策略采取动作后在未来所获得回报值的期望”,这句话描述了状态的( ) 、策略优化B、价值函数C、动作-价值函数D、采样函数 发布时间:2025-06-19 16:24:41