1. 对于大规模问题——建立模型,通过函数近似来估计实际的价值函数
  2. 特征构建【状态到值函数的映射关系】:
    1. 查表法:只是映射关系,不存在降维
    2. 离散化【连续问题】:状态空间的划分——降维
    3. 粗糙编码——一个特征对应一个圆形区域,特征可重叠
    4. 二值特征
    5. 径向基函数RBF:基函数越多,w参数越多——使基函数数目变少达到降维的效果【设置更好的基函数弥补损失】
    6. 五子棋:设计逼近器

近似框架

  1. 近似值迭代学习:
    1. 基于模型的值迭代:马尔可夫模型迭代的Q与线性特征函数模拟的Q误差最小——θ(l+1)使得误差最小【对于连续问题的离散化】
    2. 模型无关的近似值迭代:基于样本
  2. 近似策略迭代:找到最优策略——对于特定策略下的价值评估,来优化价值Q逼近器的参数w——策略提升:离散就是找贪婪策略,求一个max就行:连续情况,完善优化策略逼近器【需要策略和Q一起收敛】