一枚NLPer小菜鸡

PPO学习笔记

rewards

Action space: 动作的选择空间。

Policy:根据当前的状态给出action概率分布。

Traj:轨迹,状态和动作序列。episode rollout
{s_0,a_0,s1,a1,sn,an}

return: rewards累积和。

期望:每个可能的结果和对应概率乘积之和。

强化学习目标:

目标:训练一个神经网络 $\pi$,在所有状态S下,给出相应的action,得到return的期望最大。

或者:训练一个神经网络 $\pi$,在所有trajetory中,得到的return最大。

梯度上升⚽️期望最大。

上述为:policy gradient

on policy采集数据,训练神经网络。
off policy:先采集完数据,再训练神经网络。

actor critor:
增加base line 使得在不同 局势下都可以得到优化,
好的局势时,朝着好的方向进行,但可以区分哪些更好,哪些相对较好。

Action-Value Function
$Rt^n$ 每次都是一次随机采样,方差很大,训练不稳定。
$Q
\theta(s, a)$ 在state $s$ 下,做出Action a,期望的回报。动作价值函数。
State-Value Function
$V_\theta(s)$ 在state $s$ 下,期望的回报。状态价值函数。

Advantage Function
$A\theta(s, a)=Q\theta(s, a)-V_\theta(s)$ 在state s下,做出Action a,比其他动作能带来多少优势。

动作状态函数

价值状态函数

下面第一个是seigema 表达是
第二个GAE优势函数表达式
第三个是:策略梯度优化目标函数

ppo算法:

O(∩_∩)O哈哈~