马尔可夫决策
- 确定的MDP:
- 确定状态转移的MDP:奖励函数可能是状态迁移函数也可能是它的一部分
- 确定MDP的优化目标:折扣因子【γ:符合利益追求】——代表当下性能指标的权重【越大程度越高—远视】,若系统变化快,折扣因子就会大些
- 随机的MDP:当前状态采取的动作得到下一个状态是不确定的,存在一定的概率【P】
- 函数
- 状态转移函数:P
- 状态价值函数(V):某一状态或动作的长期价值——找最优决策进行收敛【vk最后约等于vk+1】
- 动作价值函数:q,长期和V没区别,受当前即时回报R和P、V的影响,体现出a的选择【值函数没有a的选择】
- 最优价值函数:V*(s)指在所有策略发生的状态价值函数中,使状态s价值最大的函数
- 函数相关决定因素
- 回报(R):某一也是存在时刻的奖励折扣的【R和P都受动作集a的影响】
- 策略(Π):给定状态到动作的一种分布——也会影响P和R
- a:动作、s:状态
- 最优策略:比较状态价值函数来进行评价策略的好坏——寻找最优策略可以通过最大化动作价值函数来寻找
- 如何寻找最优?
- 动态规划,用规划进行预测和控制
- 迭代策略评估
- 如何提升策略?选取贪心动作,使得vΠ最大【策略迭代:评估加更新】确定一个策略pi,然后使得V最大,通过最大的V对pi再进行调整
- 价值迭代的收敛性
- 算子T:算子作用于第k步,第k+1步的V不变
- 无穷范数