AlphaGo的策略网络(Policy Network)主要表达了一个根据当前棋局状态获得下一个动作的函数,以下哪些学习方法被用来学习该函数() :监督学习B、强化学习C、非监督学习D、半监督学习 发布时间:2024-12-23 17:20:50