这 其中包括了Watkins等人于1989年提出的著名算法Q学习[1314],它可以被 看成是一种离线策略(off-policy)的时序差分算法[i5]。Watkins对Q学习 方法的收敛性进行了证明[15]。
基于36个网页-相关网页
hands-off policy 不干涉政策
Off Policy 学习和离线
Back-off Policy 退避方案
a hands-off policy 不干涉政策
a hands-off policy n 不干涉政策
OFF-SHORE POLICY 国际保单
Policy trade-off 政策权衡
These legislators argue that such a policy would reduce crime dramatically, since it would take people with a proven tendency to commit crimes off the streets permanently.
这些立法者认为,这一政策将大幅减少犯罪率,因为它将使那些已被证明有犯罪倾向的人永远远离街头。
This policy rounds off the size of the allocation request to the next highest available block.
这种策略把分配请求的大小向上取整到下一个可用的块大小。
It's another to pretend that Washington will adopt a 'hands off' policy.
假定华盛顿将采取“不干涉”的政策则是另外一回事了。
应用推荐