基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被...
基于8个网页-相关网页
deep deterministic policy gradient
深度确定性策略梯度
以上为机器翻译结果,长、整句建议使用 人工翻译 。
应用推荐
模块上移
模块下移
不移动