MAP 视角下的正则化
Table of Contents
MAP 视角下的正则化 #
MAP #
我们使用极大似然估计 (MLE) 来估计参数模型 ${p(z;\theta)|\theta \in \Theta}$ 的参数 $\theta$ : $$ \hat{\theta} = \underset{\theta}{\arg \max} \log p(D |\theta) $$ MLE 默认参数 $\theta$ 的分布是均匀的, 而参数实际上可能服从先验分布 $p(\theta )$ , 此时想要最大化后验概率 $p(\theta | D)\cdot p(\theta)$ , 最优参数估计变为: $$ \hat{\theta} = \underset{\theta}{\arg \max} {\log p(D | \theta)\cdot p(\theta)} $$ 这就是 最大后验概率估计(Maximum A Posteriori Estimation, 简称 MAP).
带有参数先验的线性模型 #
考虑一个噪声服从高斯分布的线性模型: $y_i = w^Tx_i + e_i$ , 其中 $e_i \sim N(0, \sigma^2)$ , $y_i|w, x_i \sim N(w^Tx_i, \sigma^2)$ .
如果认为参数 $w$ 服从如下的先验分布: $$ p(w)=N(w|0, \alpha^{-1}I) $$ 对 $w$ 作 MAP 估计: $$ \hat{w} = \underset{w}{\arg \min}-\log p(w|D_n) \ = \underset{w}{\arg \min}{\log p(y|w, X) - \log p(w)}\ = \underset{w}{\arg \min}{-\sum_{i=1}^{n}\log p(y_i|w, x_i) - \frac{d}{2}\log \frac{\alpha}{2\pi} +\frac{\alpha}{2}\sum_{j = 1}^{d}w_j^2}\ = \underset{w}{\arg \min}{-\frac{n}{2}\log \frac{1}{2\pi\sigma^2} + \frac{1}{2\sigma^2}\sum_{i = 1}^{n}(y_i - w^Tx_i)^2 - \frac{d}{2}\log \frac{\alpha}{2\pi} +\frac{\alpha}{2}\sum_{j = 1}^{d}w_j^2}\ = \underset{w}{\arg \min}{\frac{1}{2\sigma^2}\sum_{i = 1}^{n}(y_i - w^Tx_i)^2 + \frac{\alpha}{2}\sum_{j = 1}^{d}w_j^2} $$ 这相当于在均方误差损失函数里添加了 L2 正则化.
参数先验与正则化 #
损失函数正则化等价于对参数引入先验分布, 因此能够缩小解空间以达到降低模型复杂度的目的.
下面介绍一些参数先验与正则化的对应关系:
- Gaussian 先验 - L2正则化
- Laplacian 先验 - L1正则化
- 当范数的次数小于 1 时, 统称为 Sparsity-promoting 先验.