1. actor与critic:

QAC—The simplest actor-critic

  1. 定义:θ是策略的参数,θ变策略也变;policy-based+value-based:actor就是θ这个公式,critic就是评估qt这个策略

A2C—Advantage actor-critic

  1. 定义:在QAC中引入新的偏执量baseline来减少估计的方差:引入关于s的偏执b是不会影响梯度的,但baseline对它的方差是有影响的
  2. 目标:最优化baseline b使得var(X)最小——这样可以保证采样的时候有更小的误差:Vπ就是qπ的平均:当最优函数用TD error来近似时,只需一个神经网络来近似vt就可。
  3. A2C算法:

Off-policy

  1. 定义:利用其它方法所得到的经验来进行策略的更新
  2. Example: 大数定理:重要性采样的引入
  3. 重要性采样
  4. off-policy—policy gradient:估计p0的期望,但采样是根据p1所得到
  5. 定理::探索性消失,因为β是一个固定的值——只有充分利用

Deterministic a-c(DPG)

  1. 和前面的区别::不确定策略——输出是有限的
  2. 确定性策略定义:直接输出a,不输出a的概率
  3. 梯度的计算:确定性策略是天然的off-policy
  4. 梯度上升: