3月 9 2014

机器学习笔记-Linear Regression

笔记整理自台大林轩田老师的开放课程-机器学习基石，笔记中所有图片来自于课堂讲义。

向所有坚持用$\LaTeX$手打公式而不是直接使用截图的偏执狂致敬！

前面花了很大篇幅在说机器为何能学习，接下来要说的是机器是怎么学习的，进入算法$\mathcal{A}$的部分。上一篇稍微提到了几个error的衡量方式，接下来的几篇笔记要讲的就是各种error measurement的区别以及针对它们如何设计最优化的算法。通过设计出来的算法，使得机器能够从$\mathcal{H}$(Hypothesis Set)当中挑选可以使得cost function最小的$h$作为$g$输出。

本篇以众所周知的线性回归为例，从方程的形式、误差的衡量方式、如何最小化$E_{in}$的角度出发，并简单分析了Hat Matrix的性质与几何意义，希望对线性回归这一简单的模型有个更加深刻的理解。

方程的形式：

$h(x)=\sum_{i=\color{red}{0}}^d w_ix_i= w^Tx \\\$

长得很像perceptron(都是直线嘛)，perceptron是$h(x)=sign(w^Tx)$。

误差的衡量 — 平方误差(squared error)：

$\begin{matrix} err(\hat{y}_n,y_n) = (\hat{y}_n-y_n)^2\\\ (\hat{y}_n\text{为预测值，}y_n\text{为真实值}) \end{matrix}$

Cost function：

$E_{in}(w)=\frac{1}{N}\sum_{n=1}^N(\hat{y}_n - y_n)=\frac{1}{N}\sum_{n=1}^N(w^Tx_n-y_n)^2$

$h(x)$是一个以$x$为变量的方程，而$E_{in}(w)$变成了一个以$w$为变量的方程。这样一来，我们就把“在$\mathcal{H}$中寻找能使平均误差最小的方程”这个问题，转换为“求解一个函数的最小值”的问题。使得$E_{in}(w)$最小的$w$，就是我们要寻找的那个最优方程的参数。

如何最小化$E_{in}(w)$：

用矩阵形式表示：

$\begin{aligned} E_{in}(\color{blue}{w}) &= \frac{1}{N}\sum_{n=1}^{N}(\color{blue}{w^T}\color{red}{x_n}-\color{purple}{y_n})^2=\frac{1}{N}\sum_{n=1}^{N}(\color{red}{x_n^T}\color{blue}{w}-\color{purple}{y_n})^2 \\\ &=\frac{1}{N}\begin{Vmatrix} \color{red}{x_1^T}\color{blue}{w}-\color{purple}{y_1}\\\ \color{red}{x_2^T}\color{blue}{w}-\color{purple}{y_2}\\\ ...\\\ \color{red}{x_N^T}\color{blue}{w}-\color{purple}{y_N} \end{Vmatrix}^2 \\\ &=\frac{1}{N}\begin{Vmatrix} \color{red}{\begin{bmatrix} --x_1^T--\\\ --x_2^T--\\\ ...\\\ --x_N^T-- \end{bmatrix}} \color{blue}{w} - \color{purple}{\begin{bmatrix} y_1\\\ y_2\\\ ...\\\ y_3 \end{bmatrix}} \end{Vmatrix}^2 \\\ &=\frac{1}{N}|| \underbrace{\color{red}{X}}_{N\times d+1}\;\;\; \underbrace{\color{blue}{w}}_{d+1\times 1} \; - \; \underbrace{\color{purple}{y}}_{N\times 1} ||^2 \end{aligned}$

$\color{red}{X}$与$\color{purple}{y}$来源于$\mathcal{D}$，是固定不变的，因此它是一个以$\color{blue}{w}$为变量的函数。我们需要解使得$E_{in}$最小的$\color{blue}{w}$，即$\underset{\color{blue}{w}}{min}\,E_{in}(\color{blue}{w})=\frac{1}{N}\begin{Vmatrix}\color{red}{X}\color{blue}{w}-\color{purple}{y}\end{Vmatrix}^2$。这个$E_{in}(\color{blue}{w})$是一个连续(continuous)、处处可微(differentiable)的凸函数(convex)：

对于这一类函数，只需要解其一阶导数为0时的解即可。

$\nabla E_{in}(\color{blue}{w})\equiv \begin{bmatrix} \frac{\partial E_{in}}{\partial \color{blue}{w}_0}(\color{blue}{w})\\\ \frac{\partial E_{in}}{\partial \color{blue}{w}_1}(\color{blue}{w})\\\ ...\\\ \frac{\partial E_{in}}{\partial \color{blue}{w}_d}(\color{blue}{w}) \end{bmatrix}=\begin{bmatrix} \color{orange}{0}\\\ \color{orange}{0}\\\ ...\\\ \color{orange}{0} \end{bmatrix}$

关于多元函数的求导，就是线性代数的范畴了：

$\boxed { \begin{matrix} \text{一元的情况}\\\ \\\ E_{in}(\color{blue}{w})=\frac{1}{N}(\color{red}{a}\color{blue}{w^2}-2\color{brown}{b}\color{blue}{w}+\color{purple}{c})\\\ \nabla E_{in}(\color{blue}{w})=\frac{1}{N}(2\color{red}{a}\color{blue}{w}-2\color{brown}{b}) \end{matrix} } \xrightarrow{\text{推广至}} \boxed{ \begin{matrix} \text{多元的情况}\\\ \\\ E_{in}(\color{blue}{w})=\frac{1}{N}(\color{blue}{w^T}\color{red}{A}\color{blue}{w}-2\color{blue}{w^T}\color{brown}{b}+\color{purple}{c})\\\ \nabla E_{in}(\color{blue}{w})=\frac{1}{N}(2\color{red}{A}\color{blue}{w}-2\color{brown}{b}) \end{matrix} }$

所以有：

$\begin{aligned} \nabla E_{in}(\color{blue}{w}) &=\nabla \frac{1}{N}(\color{blue}{w^T}\color{red}{X^TX}\color{blue}{w}-2\color{blue}{w^T}\color{brown}{X^Ty}+\color{purple}{y^Ty}) \\\ &=\frac{2}{N}(\color{red}{X^TX}\color{blue}{w}-\color{brown}{X^Ty}) \end{aligned}$

令$\nabla E_{in}(\color{blue}{w})=0$，可得最佳解：

$\color{blue}{w_{LIN}}=\underbrace{(\color{red}{X^TX})^{-1}\color{red}{X^T}}_{pseudo-inverse\;\color{red}{X^{\dagger}}}\;\;\;\color{purple}{y} = \color{red}{X^{\dagger}} \color{purple}{y}$

当$\color{red}{X^TX}$可逆的时候用它作为pseudo-inverse矩阵$\color{red}{X^{\dagger}}$，当$\color{red}{X^TX}$不可逆的时候，再用其他方式定义$\color{red}{X^{\dagger}}$，这里就不详述了。

用以$\color{blue}{w_{LIN}}$为参数的线性方程对原始数据做预测，可以得到拟合值$\hat{y}=\color{red}{X}\color{blue}{w_{LIN}}=\color{red}{XX^{\dagger}}\color{purple}{y}$。这里又称$\color{orange}{H}=\color{red}{XX^{\dagger}}$为Hat Matrix，帽子矩阵，$\color{orange}{H}$为$\color{purple}{y}$带上了帽子，成为$\hat{y}$，很形象吧。

Hat Matrix 的几何意义

这张图展示的是在N维实数空间$\mathbb{R}^N$中，注意这里是N=数据笔数，$\color{purple}{y}$中包含所有真实值，$\hat{y}$中包含所有预测值，与之前讲的输入空间是d+1维是不一样的噢。$\color{red}{X}$中包含d+1个column：

$\hat{y}=\color{red}{X}\color{blue}{w_{LIN}}$是$\color{red}{X}$的一个线性组合，$\color{red}{X}$中每个column对应$\mathbb{R}^N$下的一个向量，共有d+1个这样的向量，因此$\hat{y}$在这d+1个向量所构成的$\color{red}{span}$(平面)上。
事实上我们要做的就是在这个平面上找到一个向量$\hat{y}$使得他与真实值之间的距离$|\color{green}{y-\hat{y}}|$最短。不难发现当$\hat{y}$是$\color{purple}{y}$在这个平面上的投影时，即$\color{green}{y-\hat{y}}\perp \color{red}{span}$时，$|\color{green}{y-\hat{y}}|$最短。
所以之前说过的Hat Matrix $\color{orange}{H}$，为$\color{purple}{y}$戴上帽子，所做的就是投影这个动作，寻找$\color{red}{span}$上$\color{purple}{y}$的投影。
$\color{orange}{H}\color{purple}{y}=\hat{y}$，$(I-\color{orange}{H})\color{purple}{y}=\color{green}{y-\hat{y}}$。($I$为单位矩阵)

下面来探究一下$\color{orange}{H}$的性质，这个很重要噢。

$$\text{Hat Matrix }\color{orange}{H} = \color{red}{X(X^TX)}^{-1}\color{red}{X^T}:$$

对称性(symetric)，即$\color{orange}{H}=\color{orange}{H^T}$：

$\begin{aligned} \color{orange}{H^T} &= (\color{red}{X(X^TX)}^{-1}\color{red}{X^T})^T \\\ &=\color{red}{X({(X^TX)}^{-1})^TX^T} \\\ &=\color{red}{\color{red}{X(X^TX)}^{-1}\color{red}{X^T}}\\\ &=\color{orange}{H} \end{aligned}$

幂等性(idempotent)，即$\color{orange}{H^2}=\color{orange}{H}$：

$\begin{aligned} \color{orange}{H^2} &= (\color{red}{X(X^TX)}^{-1}\color{red}{X^T})(\color{red}{X(X^TX)}^{-1}\color{red}{X^T})\\\ &=\color{red}{X\;}\underbrace{\color{red}{(X^TX)}^{-1}\color{red}{(X^TX)}}_{I}\;\color{red}{(X^TX)}^{-1}\color{red}{X^T} \\\ &=\color{red}{X}\color{red}{(X^TX)}^{-1}\color{red}{X^T}\\\ &=\color{orange}{H} \end{aligned}$

半正定(positive semi-definite)，即所有特征值为非负数：
(以下$\lambda$为特征值，$b$为对应的特征向量) $\begin{aligned} \color{orange}{H}b&=\lambda b\\\ \color{orange}{H^2}b&=\lambda \color{orange}{H}b \\\ &=\lambda (\lambda b)\\\ \text{(因为}\color{orange}{H^2}&=\color{orange}{H}\text{)}\\\ \color{orange}{H^2}b&=\color{orange}{H}b=\lambda b\\\ \text{所以}&:\\\ \lambda ^2b&=\lambda b \\\ \text{即}&:\\\ \lambda (\lambda -1)b&=0 \\\ \lambda = 0 &\text{ or } \lambda=1 \end{aligned}$

林老师在课堂上讲到：

$$trace(I-\color{orange}{H}) = N-(d+1)$$

$trace$为矩阵的迹。这条性质很重要，但是为什么呢？证明过程有点多，以后有机会再补充，心急的同学可以看这里General formulas for bias and variance in OLS。一个矩阵的$trace$等于该矩阵的所有特征值(Eigenvalues)之和。

假设$\color{purple}{y}$由$\color{red}{f(X)\in span}+noise$构成的。有$\color{purple}{y}=\color{red}{f(X)}+noise$。之前讲到$\color{orange}{H}$作用于某个向量，会得到该向量在$\color{red}{span}$上的投影，而$I-\color{orange}{H}$作用于某个向量，会得到那条与$\color{red}{span}$垂直的向量，在这里就是图中的$\color{green}{y-\hat{y}}$，即$(I-\color{orange}{H})noise=\color{green}{y-\hat{y}}$。

这个$\color{green}{y-\hat{y}}$是真实值与预测值的差，其长度就是就是所有点的平方误差之和。于是就有：

$\begin{aligned} E_{in}(\color{blue}{w_{LIN}})&=\frac{1}{N}||\color{green}{y-\hat{y}}||^2\\\ &=\frac{1}{N}||(I-\color{orange}{H})noise||^2 \\\ &=\frac{1}{N}trace(I-\color{orange}{H})||noise||^2 \\\ &=\frac{1}{N}(N-(d+1))||noise||^2 \end{aligned}$

上面的证明不太好整理进来，依然可以参考General formulas for bias and variance in OLS。

因此，就平均而言，有：

$\begin{aligned} \color{red}{\overline{E_{in}}}&=\text{noise level}\cdot(1-\frac{d+1}{N})\\\ \color{blue}{\overline{E_{out}}}&=\text{noise level}\cdot(1+\frac{d+1}{N}) \;\;\;(后面这个不懂证了。) \end{aligned}$

花这么大力气是为了什么，又回到之前learning可行性的话题了。

$\color{red}{\overline{E_{in}}}$和$\color{blue}{\overline{E_{out}}}$都向$\sigma ^2$(noise level)收敛，并且他们之间的差异被$\frac{2(d+1)}{N}$给bound住了。有那么点像VC bound，不过要比VC bound来的更严格一些。

Beader's blog

something about Statistics, Data Mining and R