0. 基本概念

基本概念

agent 相对于环境的状态
那么对于所有 state 的集合就是 state space
action: 对于每个 state 会有对应的改变当前 state 所执行的操作就是 action
action space of a state: 就对于某个 state 而言所有可能的 action 的集合, 写作 $\mathcal{A}(s_i) = \{a_i\}_{i=1}^k$ 其中 k 表示 action 的可能数
state transition: 从一个state 转移到另一个 state 的过程称为一个 state transition, 写作 $s_1 \to s_2$
policy策略: 告诉 agent 在给定 state 下需要 take 的 action, 一般用条件概率进行描述 $\pi(a_i|s_j) = ...$
reward: 完成某个 action 之后获得的数值, 正 reward 表示鼓励某个 action; 负 reward 表示惩罚某种 action. 这取决于当前的 state 和采取的 action, 和接下来的 state 之类无关
discounted return: 折扣量, 利用一个 (0,1) 的变量 $\gamma$ 来乘以每一步的 return 值, 利用时间的权重获得不同的 reward 值，如果 gamma 小可能会更加重视最近的 reward ; 如果 gamma 大可能会更加重视较远的 reward
episode: 一个完整的尝试 trial 就是一个 episode, 其任务长度有限; 然而某些任务可能需要无限长度的 task, 称为 continuing tasks; 如何把 episodic 任务转换为 continuing task? 有两个对应的option

option1: 一旦达到了目标位置就不再离开
option2: 认为最终 state 是一个普通的 state with a policy, 每次再次进入这个 state 会再次 gain 一个正数 reward, 这样并不需要区别对待目标状态，在训练的时候会更一般化更好用