Motivating examples

Mean estimation【回顾】:注：如果采取全部加起来÷N，数据量大时效率低；因此此时采取增量式以及迭代式的方法【来几个计算几个】来求解。注：迭代式算法！
关于迭代式算法的优缺点：增量式的方法【随着数据量大，wk精确逼近Ex】注：随机近似算法+随机梯度下降算法

Robbins-Monro算法

SA【随机近似】 定义：代表了随机【涉及对随机变量的采样】且迭代的算法——目的是进行方程的求解或者是求解优化问题注：SA不需要知道方程或者是目标函数的表达式，自然也不知道导数或者梯度的表达式
RM 算法：注：求解如下
- Problem statement：g(w)=0
- 如何计算g(w)=0【未知g的表达式：如神经网络】
- 利用RM算法计算过程——没有模型【函数的表达式】时用数据的思想
- RM算法的收敛性注：数学定理如下——满足条件1【关于gw的梯度】、条件2【关于系数ak】、条件3【关于测量误差的要求】才能保证RM算法的收敛性
  - 条件1：g函数保证单调递增，这才能保证g(w)=0有唯一解!注：相当于对J(w)求了二阶导得到一个Hessian matirx【正的矩阵——convexity（凸）】
  - 条件2：ak最后趋向于0，且ak收敛到0的速度不会特别快【通常会选择一个非常小的常数赋给ak】注：上图表示w∞和w1有界，w1的值不能随便选——因此要满足ak的和为∞才保证w1的值随便选。
  - 条件3：
RM算法的应用【mean estimation】
Dvoretzkys 收敛算法：证明RM定理，且可以应用于Q-learning、TD learning

梯度下降的定义：目标是找到最优的w使得这个函数J(w)达到最小
1. 法一：无模型时，无法求期望
2. 法二：缺点在于每一次更新wk时都要采样n次
3. 法三：存在随机量的采样xk，相比BGD，就只用一个数据来估计【不精确】
SGD算法举例：
SGD算法的收敛性：注：SGD是RM特殊的算法，相比GD，利用随机梯度代替真实梯度，结论如下：
SGD算法收敛的模式——相对误差：wk离w* 很近时才会体现随机性
无random varialble的SGD：注：此时把集合x定义为随机变量X【概率都是1/n】，如下【随机抽取】