6. 贝尔曼方程_IT分享知识网

大家好，欢迎来到IT知识分享网。

文章目录

1. 简介
2.贝尔曼方程的类别
3 贝尔曼方程的意义
4 贝尔曼方程的最初形式
- 4.1 状态值函数
- 4.2 行为值函数
3.贝尔曼期望方程
3.5 贝尔曼方程的矩阵形式
4. 什么是最优状态值函数
5 什么是最优行为值函数
6. 贝尔曼最优方程

1. 简介

(1)贝尔曼方程是寻找马尔科夫决策过程的最优策略的理论基础

(2)贝尔曼方程是强化学习的基石

(3）几乎所有的强化学习算法（动态规划、蒙特卡诺、时序差分等）都是以贝尔曼方程为基础求解最优策略

2.贝尔曼方程的类别

$\begin{cases} 贝尔曼期望方程：为策略迭代算法提供理论支撑\\ 贝尔曼最优方程：为值迭代算法提供理论支撑 \end{cases}$

3 贝尔曼方程的意义

为各类以迭代方式求解最优策略开启了大门

4 贝尔曼方程的最初形式

4.1 状态值函数

$\begin{align*} V_\pi (s)&=E_\pi[G_t|S_t=s]\\ &=E_\pi[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots|S_t=s]\\ &=E_\pi[R_{t+1}+\gamma (R_{t+2}+\gamma R_{t+3}+\cdots)|S_t=s]\\ &=E_\pi[R_{t+1}+\gamma G_{t+1}|S_t=s]\\ &=E_\pi[R_{t+1}+\gamma V_\pi(S_{t+1})|S_t=s]\\ V_\pi(s)&-状态为s时遵循策略\pi 时的价值\\ R_{t+1}&-策略为\pi ,状态为s时的立即回报\\ \gamma V_\pi(S_{t+1})&-状态为s时，下一时刻状态值函数的折扣期望 \end{align*}$

4.2 行为值函数

$\begin{align*} Q_\pi(s,a)&=E_\pi[G_t|S_t=s,A_t=a]\\ &=E_\pi[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots|S_t=s,A_t=a]\\ &=E_\pi[R_{t+1}+\gamma(R_{t+2}+\gamma R_{t+3}+\cdots)|S_t=s,A_t=a]\\ &=E_\pi[R_{t+1}+\gamma Q_\pi(S_{t+1},A_{t+1})|S_t=s,A_t=a] \end{align*}$

3.贝尔曼期望方程

具有四种表达形式

3.1 $Q\to V$

$V_\pi(s)=\sum_{a\in A}\pi(a|s)Q_\pi(s,a)$

3.2 $V\to Q$

$Q_\pi(s,a)=R_s^a+\gamma\sum_{s’\in S}P_{ss’}^aV_\pi(s’)$

3.3 $V’\to V$

$V_\pi(s)=\sum_{a\in A}\left[\pi(a|s)\left( R_s^a+\gamma\sum_{s’\in S}P_{ss’}^aV_\pi(s’) \right)\right]$

3.4 $Q’\to Q$

$Q_\pi(s,a)=R_s^a+\gamma\sum_{s’\in S}P_{ss’}^a\sum_{a’\in A}\pi(a’|s’)Q_\pi(s’,a’)$

3.5 贝尔曼方程的矩阵形式

$\mathbf{V_\pi}=\mathbf{R_\pi}+\gamma\mathbf{P_\pi}\mathbf{V_\pi}\\ \begin{bmatrix} V_\pi(1)\\ V_\pi(2)\\ \vdots \\ V_\pi(n) \end{bmatrix}=\begin{bmatrix} R_1^\pi \\ R_2^\pi\\\vdots\\R_n^\pi \end{bmatrix}+\gamma\begin{bmatrix} P_{11}^\pi & P_{12}^\pi & \cdots & P_{1n}^\pi \\ P_{21}^\pi & P_{22}^\pi & \cdots & P_{2n}^\pi \\ \vdots & \vdots & \ddots & \vdots \\ P_{n1}^\pi & P_{n2}^\pi & \cdots & P_{nn}^\pi \\ \end{bmatrix}\begin{bmatrix} V_\pi (1)\\ V_\pi(2)\\\vdots\\ V_\pi(n) \end{bmatrix}$
当 $\mathbf(I-\gamma P_\pi)$ 可逆时，
$V_\pi =(I-\gamma P_\pi)^{-1}R_\pi$
当状态空间较小时，可使用上述式子求解值函数，若状态空间很大，则需要用迭代法求解，如动态规划、蒙特卡诺、时序差分。

4. 什么是最优状态值函数

对 $\forall s\in S$ ，若存在 $V^*(s)$ ，满足：
$V^*(s)=\max_\pi V_\pi(s)$
则称 $V^*(s)为最优状态值函数$
推论：最优状态值函数 $V^*(s)$ 对应的策略也是最优策略。

5 什么是最优行为值函数

对 $\forall s\in S,\forall a\in A$ ，若存在 $Q^*(s,a)$ ，满足：
$Q^*(s,a)=\max_\pi Q_\pi(s,a)$
则称 $Q^*(s,a)$ 为最优行为值函数。
推论：最优行为值函数对应的策略也是最优策略。

6. 贝尔曼最优方程

6.1 $Q^\to V^$

$V^*(s)=\max_aQ^*(s,a)$
这个式子表明：状态s的最优值函数，等于当选取动作a使得最优动作值函数取得最大值时对应的动作值函数

6.2 $V^\to Q^$

$Q^*(s,a)=R_s^a+\gamma\sum_{s’\in S}P_{ss’}^aV^*(s’)$
这里的s’是s的后继状态，也就是说，利用后继状态最优值函数、状态转移概率及当前奖励，可以计算当前最优行为值函数。

6.3 $V^{‘}\to V^$

$V^*(s)=\max_a\left[ R_s^a+\gamma\sum_{s’\in S}P_{ss’}^aV^*(s’) \right]$

6.4 $Q^{‘}\to Q^$

$Q^*(s,a)=R_s^a+\gamma\sum_{s’\in S}\max_{a’}Q^*(s’,a’)$

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/121013.html

6. 贝尔曼方程

文章目录

1. 简介

2.贝尔曼方程的类别

3 贝尔曼方程的意义

4 贝尔曼方程的最初形式

4.1 状态值函数

4.2 行为值函数

3.贝尔曼期望方程

3.1 Q → V Q\to V Q→V

3.2 V → Q V\to Q V→Q

3.3 V ′ → V V’\to V V′→V

3.4 Q ′ → Q Q’\to Q Q′→Q

3.5 贝尔曼方程的矩阵形式

4. 什么是最优状态值函数

5 什么是最优行为值函数

6. 贝尔曼最优方程

6.1 Q ∗ → V ∗ Q^*\to V^* Q∗→V∗

6.2 V ∗ → Q ∗ V^*\to Q^* V∗→Q∗

6.3 V ′ ∗ → V ∗ V^{‘*}\to V^* V′∗→V∗

6.4 Q ′ ∗ → Q ∗ Q^{‘*}\to Q^* Q′∗→Q∗

相关推荐

发表回复