go top

网络释义专业释义

  [数] markov decision process

马尔可夫决策过程(MDP ,Markov Decision Processes) 是强 化学习的数学模型,因此,通常顺序型任务中的强化学 习问题可以通过马尔可夫决策过程建模 [5]...

基于276个网页-相关网页

  MDP

马尔可夫决策过程(MDP)是研究随机环境下多阶段决策过程优化问题的理论王具,由马尔可夫过程与确定性的动态规划相结合,决策者周期性或连续性观察具有马...

基于216个网页-相关网页

  Partially Observable Markov Decision Process

部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)是一种描述不确定环境下序贯决策问题的概率模型。

基于10个网页-相关网页

  markovian decision process

马尔可夫决策过程

基于1个网页-相关网页

短语

约束马尔可夫决策过程 CMDP

半马尔可夫决策过程 Semi-Markov Decision Process

增广马尔可夫决策过程 AMDP

逻辑马尔可夫决策过程 Logical Markov decision processes

观察马尔可夫决策过程 Partially Observable Markov Decision Process ; POMDP

分层马尔可夫决策过程 Hierarchical Markov decision processes

时间马尔可夫决策过程 Discrete Time Markov Decision Processes

使用马尔可夫决策过程 Markov Decision Process ; MDP

测马尔可夫决策过程 Partially Observable Markov Decision Process

 更多收起网络短语
  • markov decision process - 引用次数:26

    When combined with the Markov decision process, it provides a new formalization suitable for multi-agent system. That is stochastic game concerning the interactive learning system of multi-agent.

    对策论与马尔可夫决策过程相结合便构建了一个用于研究交互式多agent学习的理论框架——随机对策。

    参考来源 - 结合围捕问题的合作多智能体强化学习研究
    markov decision processes - 引用次数:2

    参考来源 - 基于Markov决策过程的交互虚拟人情感计算模型 in C
  • markov decision process - 引用次数:8

    参考来源 - 认知无线电跨层传输的建模与仿真
    markov decision processes
  • markovian decision process

·2,447,543篇论文数据,部分数据来源于NoteExpress

双语例句

  • 方案建模为约束马尔可夫决策过程(CMDP),采用线性规划(LP)求解此CMDP。

    The scheme is formulated by Constrained Markov Decision Process (CMDP), which is solved by Linearly Programming (LP).

    youdao

  • 满足马尔可夫决策过程服务组合提出了一种支持不完备信息描述的网格服务描述模型实现服务组合整个生命周期的描述。

    A new model based on Markov decision processes is proposed and the correlative novel algorithm is implemented with the adaptive ability of improved Q-learning for dynamic grid service selection.

    youdao

  • 、容声冰箱市场占有率实例阐释马尔可夫市场进行预测决策过程

    We explain the process of making forecast and decision for the market adopting Markov theory through some examples such as refrigerators market share of Haier et al.

    youdao

更多双语例句

百科

马尔可夫决策过程

马尔可夫决策过程(Markov Decision Process, MDP)是序贯决策(sequential decision)的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。MDP的得名来自于俄国数学家安德雷·马尔可夫(Андрей Андреевич Марков),以纪念其为马尔可夫链所做的研究。 MDP基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励。在MDP的模拟中,智能体会感知当前的系统状态,按策略对环境实施动作,从而改变环境的状态并得到奖励,奖励随时间的积累被称为回报。 MDP的理论基础是马尔可夫链,因此也被视为考虑了动作的马尔可夫模型。在离散时间上建立的MDP被称为“离散时间马尔可夫决策过程(descrete-time MDP)”,反之则被称为“连续时间马尔可夫决策过程(continuous-time MDP)”。此外MDP存在一些变体,包括部分可观察马尔可夫决策过程、约束马尔可夫决策过程和模糊马尔可夫决策过程。 在应用方面,MDP被用于机器学习中强化学习(reinforcement learning)问题的建模。通过使用动态规划、随机采样等方法,MDP可以求解使回报最大化的智能体策略,并在自动控制、推荐系统等主题中得到应用。

详细内容

以上来源于: 百度百科
$firstVoiceSent
- 来自原声例句
小调查
请问您想要如何调整此模块?

感谢您的反馈,我们会尽快进行适当修改!
进来说说原因吧 确定
小调查
请问您想要如何调整此模块?

感谢您的反馈,我们会尽快进行适当修改!
进来说说原因吧 确定