暂态偏差学习(Temporal Difference Learning)技术可以较为有效的剔除随机误差沈J,我们想在 今后的工作中采用此技术减少输入信号中的随机分量。
基于12个网页-相关网页
TDPig是使用神经网络及时间差分学习(Temporal Difference Learning)实现的智能拱猪纸牌程序,TD法是再励学习(Reinforcement Learning)的主要方法之一。
基于8个网页-相关网页
... 3.4 增强学习 Reinforcement Learning 时间差学习 Temporal difference learning 堆叠泛化 Stacked Generalization ...
基于3个网页-相关网页
他为该领域做出了许多重大贡献,包括:时间差分学习(temporal difference learning)、策略梯度方法(policy gradient methods)、Dyna 架构。
基于1个网页-相关网页
以上来源于: WordNet
应用推荐