(P1) RL-101

采用如下记号: $t=0,1,…$, 当前状态为 $s_t$, 采取某个动作 $a_t$ 后, 跳转到状态 $s_{t+1}$, 获得的奖励为 $r_{t+1}$.

严格地说, 环境由四元组所描述: $(\mathcal{S},\mathcal{A},P,R)$, 其中 $\mathcal{S}$ 是所有可能地状态, $\mathcal{A}$ 是所有可能地动作集合, $P$ 是转移概率: $P(s_{t+1}

s_{t},a_{t})$, $R$ 是奖励函数: $R(s_{t},a_{t},s_{t+1})$.

散点记录(待整合)

马尔可夫

马尔可夫过程(MP): 系统自带状态转移规则

马尔可夫奖励过程(MRP): 系统自带状态转移规则, 并且自带状态转移的即时奖励和折扣因子

马尔可夫决策过程(MDP): 动作由智能体决定, 系统提供状态转移规则(根据当前状态和动作)和奖励函数(奖励函数的完整格式是基于当前状态,动作,以及转移后的动作), 奖励折扣因子

贝尔曼方程

对于特定的随机策略 $\pi$, 也就是它由 $P_{\pi}=\pi(a

s)$ 表示基于当前状态, 采取下一个动作 $a$ 的概率来刻画. 价值函数有如下关系:

\[V_{\pi}(s)=\sum_{a\in\mathcal{A}}\pi(a|s)[R(s, a)+\gamma \sum_{s'\in\mathcal{S}}P(s'|s,a)V_{\pi}(s')]\]

这里的 $R(s,a)$ 表示当步的期望奖励, 而 $P(s’

s,a)$ 是由环境决定的转移概率.

针对特定的确定性策略 $\pi$, 也就是它由函数 $a=\pi(s)$ 来刻画, 价值函数有如下关系:

\[V_{\pi}(s)=R(s,a)+\gamma \sum_{s'\in\mathcal{S}}P(s'|s,a)V_{\pi}(s')\]

同样这里的 $R(s,a)$ 表示当步的期望奖励, 而 $P(s’

s,a)$ 是由环境决定的转移概率.

值函数

基于值函数的策略改进方式: 给定当前策略 $\pi$, 执行如下步骤来更新这个策略, 首先利用当前策略与环境进行交互估计出状态-动作价值函数 $Q_{\pi}(s,a)$. 动作价值函数表示的是在状态 $s$ 下, 强制此步骤采用动作 $a$, 接下来再采用策略 $\pi$, 所得到的累计回报.

之后采用 $\pi’(s) = \argmax_{a\in\mathcal{A}}{Q(s, a)}$ 来得到更新后的策略. 有定理能保证这么做得到的更新后的策略好于之前的策略. 这也就是 Q-learning 算法.

对于随机性策略:

状态-动作价值函数与状态价值函数之间可以互相推算(但都需要有一些额外信息):

\[V_{\pi}(s)=\sum_{a\in\mathcal{A}}{\pi(a|s)}Q_{\pi}(s,a)\]

推算前提是知道当前策略, 这一般是已知的. 但这里涉及到一个求和, 可能不一定是可计算的.

\[Q_{\pi}(s, a)=R(s, a)+\gamma\sum_{s'\in\mathcal{S}}{P(s'|s, a)V_{\pi}(s')}\]

推算前提是知道奖励函数 $R(s,a)$ 以及转移概率 $P(s’

s,a)$. 这些信息是由环境决定的, 不一定可以获取.

贝尔曼方程可由上面的式子进一步推导出来:

\[V_{\pi}(s)=\sum_{a\in\mathcal{A}}{\pi(a|s)}{[R(s, a)+\gamma\sum_{s'\in\mathcal{S}}{P(s'|s, a)V_{\pi}(s')}]}\]

以及

\[Q_{\pi}(s,a)=R(s, a)+\gamma\sum_{s'\in\mathcal{S}}{P(s'|s, a)[\sum_{a'\in\mathcal{A}}{\pi(a'|s')}Q_{\pi}(s',a')]}\]

注意, 这个两个递推都需要知道环境信息: 奖励函数 $R(s,a)$ 以及转移概率 $P(s’

s,a)$. 以及策略本身的信息 $\pi(a

s)$

actor-critic 方法