机器学习 – 第二周:多变量线性回归

好吧……我成功的把 coursera 的 Machine Learning 课完完全全的坑掉了…… Courera 都发信告诉我你快去 check 你的 Review questions 啦否则要不及格了!我才发现我已经完完全全的跟不上进度了哭瞎…… 估计我要跟着 ml-007 班才可能上完这门课了 QAQ 留级什么的……

于是这是多变量线性回归的总结。

多变量线性回归,其实亦是线性回归:其区别主要在于,参与回归的变量变多了,也就是要用多个因素来共同预测同一个结果。

模型表达

$${{\rm{h}}_\theta }(x) = {\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + … + {\theta _n}{x_n}$$

——其实有 $$x_0$$ 的,只是它等于1,于是就没有 $$x_0$$ 了。

当然它可以用简洁大气的向量形式表示,如下:

$${{\rm{h}}_\theta }(x) = {\theta ^T}x$$

多变量的梯度下降算法

成本函数

$$J(\theta ) = {1 \over {2m}}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) – {y^{(i)}})}^2}} $$

成本函数和单变量的并无本质区别,唯需注意:其中的 $$\theta$$ 和 $$x$$ 已经是向量。

梯度下降

梯度下降也并无区别;唯将同步更新的 $$\theta_0$$ 和 $$\theta_1$$ 变成了 $$\theta_0$$ 到 $$\theta_j$$ 而已。

特征缩放(Feature Scaling)

Google 上随便搜了下,没找着合适的中文翻译,暂且叫他特征缩放吧。其主要目的,则是让各个特征——即参与预测的参数,保持在同一个数量级上,以减少迭代的次数。

参与预测的各特征由于种种原因,其大小并不在同一个数量级上;也就是说,特征的单位往往不统一。而这会造成迭代上的问题——有的次要特征无法快速减小,以至于消耗大量的时间;而主要特征有可能无法快速上升从而达到最佳解。

而特征缩放,将所有的特征都限定在 $$ – 1 \le x \le 1$$ 的范围内,使特征都保持在同一个数量级。这样一来,梯度下降算法将会提升其效率,运行得更加快速干净。

一般我们采用如下算法:记特征的平均值为 $$\mu $$ ,而特征的范围(最大值减去最小值)为 $$s$$ ,则将以下的变量代替特征 $$x$$ 参与迭代:

$${{x – \mu } \over s}$$

学习速率(Learning rate, $$\alpha$$)

提到学习速率之前,需要先了解我们是如何处理梯度下降算法中的问题的——即,我们如何知道梯度下降算法是否正在朝我们想要的结果发展?

最简单明了的方式,就是画出迭代次数-成本函数的直角坐标系图。在每次迭代时,该图线持续下降——亦即,Jmin(t)是一个单调递减的函数。

那学习速率 $$\alpha$$ 又会以怎样的方式影响梯度下降算法呢?回到之前我们的梯度下降算法公式:

$$\theta_{j}:=\theta_{j}-\alpha\frac{\partial}{\partial\theta_{j}}J(\theta_{0},\theta_{1})$$

观察到,每次迭代都将下降$${\partial \over {\partial {\theta _j}}}J({\theta _0},{\theta _1})$$的$$\alpha$$倍。

显然,若是$$\alpha$$取值太小,则每次下降的步幅太小,则效率太低;若$$\alpha$$的取值太大,则将错过最低值而走向离最低值越来越远的道路——穿过最低值后,其导数值可能比上一次迭代更高,于是一次比一次跳跃得更远,也就无法取到最小值了。

选择学习速率$$\alpha$$的方法是凭经验:依次取0.001、0.003、0.01……1、3、10、……如此尝试。在尝试的过程中,可以首先将迭代次数降低;然后试着画出 Jmin-t 的图线;观察图线,然后根据图线调整 $$\alpha$$ 的值。

线性回归中的多次式

之前我们提到的线性回归预测,多是一次项比较多;但某些特征,对结果的影响可能不是一次的——可能是二次、三次甚至更甚。于是,可以用 $$x^2_i$$ 、 $$x^3_i$$ 来代替 $$x_i$$ 参与线性回归。

一般等式

可用下列等式直接求出线性回归时我们所求的 $$\theta$$ 值:

$$\theta = {({X^T}X)^{ – 1}}{X^T}{\rm{y}}$$

适用于样本数量 n 比较小的情况——因为 n 大了会比较慢。

当 $${X^T}X$$ 没有逆矩阵时,可以用 octave 的 pinv 方法求得伪逆——主要是特征太多的情况下会导致这种情况的发生。

评论

还没有评论。

发表评论

发表评论代表你授权本网站存储并在必要情况下使用你输入的邮箱地址、连接本站服务器使用的 IP 地址和用户代理字符串 (User Agent) 用于发送评论回复邮件,以及将上述信息分享给 Libravatar Akismet,用于显示头像和反垃圾。