采用如下记号: $t=0,1,…$, 当前状态为 $s_t$, 采取某个动作 $a_t$ 后, 跳转到状态 $s_{t+1}$, 获得的奖励为 $r_{t+1}$.

严格地说, 环境由四元组所描述: $(\mathcal{S},\mathcal{A},P,R)$, 其中 $\mathcal{S}$ 是所有可能地状态, $\mathcal{A}$ 是所有可能地动作集合, $P$ 是转移概率: $P(s_{t+1} s_{t},a_{t})$, $R$ 是奖励函数: $R(s_{t},a_{t},s_{t+1})$.