Q-learning学习算法——这是一种通过学习动作值函数(action-value function)完成的强化学习算法,函数采取在给定状态的给定动作,并计算出期望的效用价值,在此后遵循固定的策略。
基于16个网页-相关网页
动作值函数
Action value function
以上为机器翻译结果,长、整句建议使用 人工翻译 。
应用推荐
模块上移
模块下移
不移动