🐷 可爱小猪Q

Search

❯

❯

强化学习框架——西湖大学

强化学习框架——西湖大学

Jun 02, 20242 min read

——基础工具

第一章【基本概念】：
第二章【贝尔曼公式】：策略评价
第三章【贝尔曼最优公式】：强化学习的最终目标？【求解最优策略】 ——算法和反馈
第四章【最优策略的算法】：有模型的值迭代/策略迭代
第五章【无模型的】：不需要模型找最优策略——学习随机变量的期望值【通过随机采样、MC basic/MC Exploring Starts/MC ɛ-greedy 】
第六章【随机近似理论】：from non-incremental【如我有一万个样本，我要等采样所有后才求平均】 to incremental【开始有一个可能不准的估计，得到一次采样就更新一次估计】
第七章【时序差分】：
第八章【状态连续或状态特别多时的——函数Vhat】：神经网络首次进入到强化学习中
第九章【由value-based到policy-based的跳跃】：
第十章【policy-based+value-based】：
课程是否适合你？——课程特点：强化学习的原理；数学的角度讲故事

强化学习背景

AlphaGo：
1. 围棋界战无不胜——掀起强化学习的热潮
2. AlphaGo Zero：战胜AlphaGo
强化学习历史：
1. Deep Q-learning：Q-learning【特殊的Temporal-difference learing时序差分】
2. Dynamic programming【动态规划】：离散时间/离散状态
强化学习分类
1. 人工智能
2. 机器学习
强化学习的范式：

Graph View

Backlinks

No backlinks found

Created with Quartz v4.2.3 © 2024

GitHub
Discord Community