rewards
Action space: 动作的选择空间。
Policy:根据当前的状态给出action概率分布。
Traj:轨迹,状态和动作序列。episode rollout
{s_0,a_0,s1,a1,sn,an}
return: rewards累积和。
期望:每个可能的结果和对应概率乘积之和。
强化学习目标:
目标:训练一个神经网络 $\pi$,在所有状态S下,给出相应的action,得到return的期望最大。
或者:训练一个神经网络 $\pi$,在所有trajetory中,得到的return最大。
梯度上升⚽️期望最大。
上述为:policy gradient
on policy采集数据,训练神经网络。
off policy:先采集完数据,再训练神经网络。
actor critor:
增加base line 使得在不同 局势下都可以得到优化,
好的局势时,朝着好的方向进行,但可以区分哪些更好,哪些相对较好。
Action-Value Function
$Rt^n$ 每次都是一次随机采样,方差很大,训练不稳定。
$Q\theta(s, a)$ 在state $s$ 下,做出Action a,期望的回报。动作价值函数。
State-Value Function
$V_\theta(s)$ 在state $s$ 下,期望的回报。状态价值函数。
Advantage Function
$A\theta(s, a)=Q\theta(s, a)-V_\theta(s)$ 在state s下,做出Action a,比其他动作能带来多少优势。
动作状态函数
价值状态函数
下面第一个是seigema 表达是
第二个GAE优势函数表达式
第三个是:策略梯度优化目标函数
ppo算法: