策略目标函数
- 定义:给出策略Πθ(s,a),求出最好的参数θ【建模的过程】
- 片段式环境+连续性环境——策略最优化
- 策略梯度:沿梯度方向使J(𝜃)上升至局部最大值
- 模型策略:
- Softmax:梯度是当前动作偏好的梯度与所有动作偏好梯度均值的差
- 高斯分布策略+线性函数策略(连续动作空间)
- 单步马尔科夫决策过程【短期回报的梯度】——多步【策略不变,长期平均总回报代替一步回报】
- 有终止条件的策略优化目标:采样或TD差分求期望——优化整个轨迹的奖励
- 无终止条件:所有回报的衰减求和的期望——平均回报
- 策略梯度的计算:
- 似然比代表该条轨迹到策略目标函数最优值的梯度
- 时间连续性:动作没有发生之前的奖励不产生影响
- 策略评估【策略选择+价值评估的过程】:用critic对行为价值进行估计并用于指导策略更新
- Actor-critic :价值学习率通常比策略学习率大,这样才能进行知道策略的迭代,Qw是中间值,因此会存在一定偏差——兼容性【w是价值的参数,θ是策略的参数】
- 兼容近似函数:近似价值函数对于策略兼容【终点和过程无偏——收敛】
- 适应基线减少方差:利用达到稳态的状态价值做基线【理想状态,利用初始的V0做B】——对方差有影响
- 优势函数——TD误差【每一步的TD误差作为当时的优势函数来用】