Temporal difference learning
结合Monte Carlo方法和动态规划技术,式(8)给出强化学习中时间差分学习(TD,Temporal difference)的值函数迭代公式。
基于2个网页-相关网页
·2,447,543篇论文数据,部分数据来源于NoteExpress
应用推荐
模块上移
模块下移
不移动