We model the problem to Markov decision processes,and provide a online algorithm. This algorithm use two time-scale technology to decrease the computational cost and convergence rate.
通过将问题建模为Markov决策过程,提出一种在线学习估计策略梯度,随机逼近优化容许接入策略的在线算法,利用双时间尺度的技术降低计算复杂度,提高收敛速度。
参考来源 - 基于梯度逼近方法的Markov系统及其在通信中的应用·2,447,543篇论文数据,部分数据来源于NoteExpress
应用推荐