...的自主缩减 将具有连续状态空间的强化学习问题投影到经典强化 学习算法模型———马尔可夫决策过程( Markov decision processing , MDP) 模型中,首先要将连续状态空间离散化, 离散粒度影响了算法的泛化精度和收敛速度,离散粒度越 细,泛化...
基于1个网页-相关网页
应用推荐
模块上移
模块下移
不移动