好吧……我成功的把 coursera 的 Machine Learning 课完完全全的坑掉了…… Courera 都发信告诉我你快去 check 你的 Review questions 啦否则要不及格了！我才发现我已经完完全全的跟不上进度了哭瞎…… 估计我要跟着 ml-007 班才可能上完这门课了 QAQ 留级什么的……

于是这是多变量线性回归的总结。

多变量线性回归，其实亦是线性回归：其区别主要在于，参与回归的变量变多了，也就是要用多个因素来共同预测同一个结果。

模型表达

$${{\rm{h}}_\theta }(x) = {\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + … + {\theta _n}{x_n}$$

——其实有 $$x_0$$ 的，只是它等于1，于是就没有 $$x_0$$ 了。

当然它可以用简洁大气的向量形式表示，如下：

$${{\rm{h}}_\theta }(x) = {\theta ^T}x$$

多变量的梯度下降算法

成本函数

$$J(\theta ) = {1 \over {2m}}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) – {y^{(i)}})}^2}} $$

成本函数和单变量的并无本质区别，唯需注意：其中的 $$\theta$$ 和 $$x$$ 已经是向量。

梯度下降

梯度下降也并无区别；唯将同步更新的 $$\theta_0$$ 和 $$\theta_1$$ 变成了 $$\theta_0$$ 到 $$\theta_j$$ 而已。

特征缩放（Feature Scaling）

Google 上随便搜了下，没找着合适的中文翻译，暂且叫他特征缩放吧。其主要目的，则是让各个特征——即参与预测的参数，保持在同一个数量级上，以减少迭代的次数。

参与预测的各特征由于种种原因，其大小并不在同一个数量级上；也就是说，特征的单位往往不统一。而这会造成迭代上的问题——有的次要特征无法快速减小，以至于消耗大量的时间；而主要特征有可能无法快速上升从而达到最佳解。

而特征缩放，将所有的特征都限定在 $$ – 1 \le x \le 1$$ 的范围内，使特征都保持在同一个数量级。这样一来，梯度下降算法将会提升其效率，运行得更加快速干净。

一般我们采用如下算法：记特征的平均值为 $$\mu $$ ，而特征的范围（最大值减去最小值）为 $$s$$ ，则将以下的变量代替特征 $$x$$ 参与迭代：

$${{x – \mu } \over s}$$

学习速率（Learning rate， $$\alpha$$）

提到学习速率之前，需要先了解我们是如何处理梯度下降算法中的问题的——即，我们如何知道梯度下降算法是否正在朝我们想要的结果发展？

最简单明了的方式，就是画出迭代次数-成本函数的直角坐标系图。在每次迭代时，该图线持续下降——亦即，Jmin(t)是一个单调递减的函数。

那学习速率 $$\alpha$$ 又会以怎样的方式影响梯度下降算法呢？回到之前我们的梯度下降算法公式：

$$\theta_{j}:=\theta_{j}-\alpha\frac{\partial}{\partial\theta_{j}}J(\theta_{0},\theta_{1})$$

观察到，每次迭代都将下降$${\partial \over {\partial {\theta _j}}}J({\theta _0},{\theta _1})$$的$$\alpha$$倍。

显然，若是$$\alpha$$取值太小，则每次下降的步幅太小，则效率太低；若$$\alpha$$的取值太大，则将错过最低值而走向离最低值越来越远的道路——穿过最低值后，其导数值可能比上一次迭代更高，于是一次比一次跳跃得更远，也就无法取到最小值了。

选择学习速率$$\alpha$$的方法是凭经验：依次取0.001、0.003、0.01……1、3、10、……如此尝试。在尝试的过程中，可以首先将迭代次数降低；然后试着画出 Jmin-t 的图线；观察图线，然后根据图线调整 $$\alpha$$ 的值。

线性回归中的多次式

之前我们提到的线性回归预测，多是一次项比较多；但某些特征，对结果的影响可能不是一次的——可能是二次、三次甚至更甚。于是，可以用 $$x^2_i$$ 、 $$x^3_i$$ 来代替 $$x_i$$ 参与线性回归。

一般等式

可用下列等式直接求出线性回归时我们所求的 $$\theta$$ 值：

$$\theta = {({X^T}X)^{ – 1}}{X^T}{\rm{y}}$$

适用于样本数量 n 比较小的情况——因为 n 大了会比较慢。

当 $${X^T}X$$ 没有逆矩阵时，可以用 octave 的 pinv 方法求得伪逆——主要是特征太多的情况下会导致这种情况的发生。

机器学习 – 第二周：多变量线性回归