中文:策略迭代法;日语:せいさくはんぷくほう
基于1个网页-相关网页
策略迭代法
戦略反復法です
以上为机器翻译结果,长、整句建议使用 人工翻译 。
策略迭代法(policy iteration method),动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程,交替使用“求值计算”和“策略改进”两个步骤,求出逐次改进的、最终达到或收敛于最优策略的策略序列。
详细内容
应用推荐
模块上移
模块下移
不移动