PPO学习笔记

rewards:与环境一次交互环境所给的反馈奖励或惩罚。

Action space: 动作的选择空间。

Policy:根据当前的状态给出action概率分布。

Traj:轨迹，状态和动作序列。episode rollout
{s0,a0,s1,a1,sn,an}

return: rewards累积和。

期望：每个可能的结果和对应概率乘积之和。

强化学习目标:

$\mathrm{E}(\mathrm{x})_{x \sim p(x)}=\sum_x x * p(x) \approx \frac{1}{n} \sum_{i=1}^n x \quad x \sim p(x)$

目标：训练一个神经网络 $\pi$，在所有状态S下，给出相应的action，得到return的期望最大。

或者：训练一个神经网络 $\pi$，在所有trajetory中，得到的return最大。

$E(R(\tau))_{\tau \sim P_\theta(\tau)}=\sum_\tau R(\tau) P_\theta(\tau)$

梯度上升⚽️期望最大。

$\begin{aligned} \nabla E(R(\tau))_{\tau \sim P_\theta(\tau)} & =\nabla \sum_\tau R(\tau) P_\theta(\tau) \\ & =\sum_\tau R(\tau) \nabla P_\theta(\tau) \\ & =\sum_\tau R(\tau) \nabla P_\theta(\tau) \frac{P_\theta(\tau)}{P_\theta(\tau)} \\ & =\sum_\tau P_\theta(\tau) R(\tau) \frac{\nabla P_\theta(\tau)}{P_\theta(\tau)} \\ & =\sum_\tau P_\theta(\tau) R(\tau) \frac{\nabla P_\theta(\tau)}{P_\theta(\tau)} \\ & \approx \frac{1}{N} \sum_{n=1}^N R\left(\tau^n\right) \frac{\nabla P_\theta\left(\tau^n\right)}{P_\theta\left(\tau^n\right)} \\ & =\frac{1}{N} \sum_{n=1}^N R\left(\tau^n\right) \nabla \log P_\theta\left(\tau^n\right) \quad \nabla \log f(x)=\frac{\nabla f(x)}{f(x)} \end{aligned}$ $\begin{aligned} = & \frac{1}{N} \sum_{n=1}^N R\left(\tau^n\right) \nabla \log P_\theta\left(\tau^n\right) \\ = & \frac{1}{N} \sum_{n=1}^N R\left(\tau^n\right) \nabla \log \prod_{t=1}^{T_n} P_\theta\left(a_n^t \mid s_n^t\right) \\ = & \frac{1}{N} \sum_{n=1}^N R\left(\tau^n\right) \sum_{t=1}^{T_n} \nabla \log P_\theta\left(a_n^t \mid s_n^t\right) \\ = & \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R\left(\tau^n\right) \nabla \log P_\theta\left(a_n^t \mid s_n^t\right) \\ & \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R\left(\tau^n\right) \log P_\theta\left(a_n^t \mid s_n^t\right) \end{aligned}$

上述为：policy gradient

on policy采集数据，训练神经网络。
off policy:先采集完数据，再训练神经网络。

actor critor:
增加base line 使得在不同局势下都可以得到优化，
好的局势时，朝着好的方向进行，但可以区分哪些更好，哪些相对较好。

$\begin{aligned} & =\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R\left(\tau^n\right) \nabla \log P_\theta\left(a_n^t \mid s_n^t\right) \\ & =\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R_t^n \nabla \log P_\theta\left(a_n^t \mid s_n^t\right) \\ & =\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n}\left(R_t^n-B\left(s_n^t\right)\right) \nabla \log P_\theta\left(a_n^t \mid s_n^t\right) \end{aligned}$ $\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n}\left(R_t^n-B\left(s_n^t\right)\right) \nabla \log P_\theta\left(a_n^t \mid s_n^t\right)$

Action－Value Function
$Rt^n$ 每次都是一次随机采样，方差很大，训练不稳定。
$Q\theta(s, a)$ 在state $s$ 下，做出Action a，期望的回报。动作价值函数。
State－Value Function
$V_\theta(s)$ 在state $s$ 下，期望的回报。状态价值函数。

Advantage Function
$A\theta(s, a)=Q\theta(s, a)-V_\theta(s)$ 在state s下，做出Action a，比其他动作能带来多少优势。

$\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} A_\theta\left(s_n^t, a_n^t\right) \nabla \log P_\theta\left(a_n^t \mid s_n^t\right)$

动作状态函数

价值状态函数

下面第一个是seigema 表达是
第二个GAE优势函数表达式
第三个是：策略梯度优化目标函数

$\begin{aligned} & \delta_t^V=r_t+\gamma * V_\theta\left(s_{t+1}\right)-V_\theta\left(s_t\right) \\ & A_\theta^{G A E}\left(s_t, a\right)=\sum_{b=0}^{\infty}(\gamma \lambda)^b \delta_{t+b}^V \\ & \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} A_\theta^{G A E}\left(s_n^t, a_n^t\right) \nabla \log P_\theta\left(a_n^t \mid s_n^t\right) \end{aligned}$

ppo算法:

$\begin{gathered} \operatorname{Loss}_{p p o}=-\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} A_{\theta^{\prime}}^{G A E}\left(s_n^t, a_n^t\right) \frac{P_\theta\left(a_n^t \mid s_n^t\right)}{P_{\theta^{\prime}}\left(a_n^t \mid s_n^t\right)}+\beta K L\left(P_\theta, P_{\theta^{\prime}}\right) \\ \operatorname{Loss}_{p p o 2}=-\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} \min \left(A_{\theta^{\prime}}^{G A E}\left(s_n^t, a_n^t\right) \frac{P_\theta\left(a_n^t \mid s_n^t\right)}{P_{\theta^{\prime}}\left(a_n^t \mid s_n^t\right)}, \operatorname{clip}\left(\frac{P_\theta\left(a_n^t \mid s_n^t\right)}{P_{\theta^{\prime}}\left(a_n^t \mid s_n^t\right)}, 1-\varepsilon, 1+\varepsilon\right) A_{\theta^{\prime}}^{G A E}\left(s_n^t, a_n^t\right)\right) \end{gathered}$