关于策略梯度的方法说法正确的是 A、只适用于离散动作空间; B、适用于连续动作空间; C、策略梯度的方法与DQN中的目标函数一致; D、策略梯度的方法通过Q值挑选动作 发布时间:2025-05-09 11:04:45