强化学习基本概念

State：Agent相对于环境的状态——如网格世界中的状态就是locationState space：状态空间，所有的状态的集合
Action：每一个状态都有可采取的行动Action space：动作的集合，且不同状态所对应的动作不同，所以A是S的一个函数A(Si)
State transition：采取一个动作时，agent的状态发生转移【定义了agent与环境发生交互的行为】注：表格只能表述行动确定性的情况，随机性的例子需要State transition probability【定义了在当前s状态下，采取动作a，跳到了一个状态s的概率】
Policy：策略π——告诉agent在当前状态下应该怎么走【在当前状态下采取动作a的概率，因此对应一个状态采取的所有动作的概率之和为1】，基于策略可以得到路径注：此时策略是确定的，s1状态就只会采取a1的动作
Reward：r为正的代表对行为的鼓励，负的代表对行为的惩罚注：reward是引导agent该怎么做，从而实现目标注：reward依赖于当前的状态和Action而不是依赖于下一个状态【相同的下一个状态所对应的reward可能不同】
Trajectory：State-action-reward链Return：把沿着轨迹的所有reward加起来【Return the greater，policy越好】，可以用于评估一个策略是好还是坏
Discounted return：轨迹是无限长的，因此加上折扣因子γ可以有效避免return无限大注：discount rate—γ；γ接近0，那么return会依赖最开始的reward【注重当下】，反之γ趋向1，未来的reward衰减慢，积累起来的return也多依赖未来的reward【考虑未来】
episode：无terminal state的任务叫做continuing tasks【任务会一直持续下去】
马尔科夫链MDP：memoryless property【马尔科夫性：不考虑历史，历史无关性】注：Markov——property；decision——policy；process——Sets+Probability注：decision是确定的，MDP——MP【马尔科夫过程】
总结：

🐷 可爱小猪Q

Explorer

强化学习基本概念—西湖大学

Graph View

Backlinks