...未来奖赏的当前价值: 在k步之后的一个奖赏,如果换算成当前奖赏,需要乘以它的\(\gamma^{k-1}\)倍。 情节性任务(episodic tasks)的回报计算 G_t \doteq um_{k=0}^{T-t-1} \gamma^k R_{t+k+1} \quad (T = \infty \text{ or } \gamma = 1 \text{ (but not bot...
基于1个网页-相关网页
episodic tasks
情景任务
以上为机器翻译结果,长、整句建议使用 人工翻译 。
应用推荐
模块上移
模块下移
不移动