average reward model
平均报酬模型
基于1个网页-相关网页
·2,447,543篇论文数据,部分数据来源于NoteExpress
对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习。
It is rational to adopt the average reward reinforcement learning algorithms for solving the absorbing goal states cyclical tasks.
youdao
应用推荐
模块上移
模块下移
不移动