其基本思想是状态因 素化表示,通过动态贝叶斯网络(DynamicBayesNetworks,DBNs)表示Markov 决策过程(Markov decisionProcess,MDP)中的状态概率转移函...
基于1个网页-相关网页
基于因素化表示的强化学习方法研究 - docin.com豆丁网 中验证算法效果。 最后提出了一种新的基于因素法方法的TD(名)算法。其基本思想是状态因 素化表示,通过动态贝叶斯网络(DynamicBayesNetworks,DBNs)表示Markov 决策过程(Markov decisionProcess,MDP)中的状态概率转移函
基于1个网页-相关网页