MDPs —— 马尔可夫决策定义与算法

大家好，欢迎来到IT知识分享网。

文章目录

MDPs 定义——由实例开始
MDPs 的基本原理、表示
MDPs 求解

MDPs 定义——由实例开始

时序决策问题

对于马尔可夫过程而言， A(s) 是不可靠的。具体地说，假设当前的 agent 采用了 “上”，那么在现实的实现中，有 80% 的概率走上，10% 的概率走右，10% 走左。因此，假如 agent 目前处于状态（位置） s，那么下一个动作后，agent 来到 s’ 需要用一个新的变量——状态转移模型 来表示，记为 P(s’|s,a)；

可以看到，这个游戏的下一个状态，取决于上一个状态。而且这几个格子里面是什么情况，这几个格子的布局是什么，终点在哪里，都是已知的。这个游戏，其实也是一个时序决策过程。也就是说，环境已知，状态是通过上一个状态，转移到下一个状态。

给游戏增点乐子

当然，如果这个游戏只是单纯地走到 +1、-1，然后游戏结束，未免太过无聊。为了给游戏增加乐趣，我们给每一个格子都加入一个附加回报。所以 agent 在进行状态转移时（从一个格子，到另一个格子），都会积累一个回报，记为 R(s’,a,s)。当然，这个 R(s’,a,s) 可正可负，并且具有上下界。

然后，我们修改一下游戏获胜规则。为此定义一个效用函数，其定义为：agent 从当前状态（不是初始状态）到目标状态所经历的轨迹中，所有回报之和。

当然，效用有两种计算方式，如下：

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/130216.html

MDPs —— 马尔可夫决策定义与算法

文章目录

MDPs 定义——由实例开始

时序决策问题

给游戏增点乐子

相关推荐

发表回复