基于模拟退火q学习的移动机器人路径规划技术研究(优秀硕博学位论文) - docin.com豆丁网 再学习最优策略,称这类方法为模型有关的方法,典型算法 有蒙特卡罗(MontaCarlo,MC)方法、时序差分算法(TemporalDifference,TD)、Q学习 算法等。下面对强化学习中的这些常见算法分别介绍。 2.3.2动态规划方法 动态规划的思想是
基于2个网页-相关网页
时序差分算法
Temporal difference algorithm
以上为机器翻译结果,长、整句建议使用 人工翻译 。
动态规划、蒙特卡罗算法、时序差分算法、Q-学习,并指出了它们之间的区别和联系。
Then the four main algorithms including dynamic programming, monte carlo method, temporal-difference and Q-learning are given respectively, and their difference and relation are pointed out.
youdao
应用推荐
模块上移
模块下移
不移动