- 首页
- 建筑九大员继续教育
-
1.()是根据当前的Q值计算出一个最优的动作
-
2.在强化学习过程中,()表示随机地采取某个动作,以便于尝试各种结果;()表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。
-
3.2在强化学习过程中,()表示随机地采取某个动作,以便于尝试各种结果;()表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。
-
4.在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越(),采用当前Q函数值最大的动作的概率越()
-
5.6.在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越(),采用当前Q函数值最大的动作的概率越()。A
-
6.动态规划算法适用于解最优化问题,以下哪个不是动态规划法解决问题的步骤( )A、找出最优解的性质,并刻画其结构特征B、递归地定义最优值C、以自顶向下的方式计算出最优值D、根据计算最优值时得到的信息,
-
7.根据19题计算出的结果做计算出所得税的分录。
-
8.如果A*算法中启发值h 大于当前节点到目标节点的实际路径值,则可能搜索不到最优路径。
-
9.Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的
-
10.原问题最优值为