go top

网络释义专业释义

  policy iteration

无痛的增强学习入门: 增强学习形式化 本节将详细介绍采用这个战术实现的算法—— 策略迭代法Policy Iteration) 。 3 策略迭代法 3.1 策略迭代法 在上面的计算思路中,我们要想知道最优的策略,就需要能够准确估计价值函数。

基于68个网页-相关网页

  policy iteration method

策略迭代法

基于1个网页-相关网页

  tactic iinteraction

策略迭代法

基于1个网页-相关网页

  • policy iteration method

·2,447,543篇论文数据,部分数据来源于NoteExpress

双语例句

  • 文中应用策略迭代求解

    The policy iteration method is used in solving process.

    youdao

更多双语例句

百科

策略迭代法

策略迭代法(policy iteration method),动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程,交替使用“求值计算”和“策略改进”两个步骤,求出逐次改进的、最终达到或收敛于最优策略的策略序列。

详细内容

以上来源于: 百度百科
$firstVoiceSent
- 来自原声例句
小调查
请问您想要如何调整此模块?

感谢您的反馈,我们会尽快进行适当修改!
进来说说原因吧 确定
小调查
请问您想要如何调整此模块?

感谢您的反馈,我们会尽快进行适当修改!
进来说说原因吧 确定