机器学习 – 简介

最近在 Coursera 上参加 Andrew Ng 的 Machine Learning 课程,感觉颇为良好, AN 的课讲得很是生动,也比较深入浅出,适合我这种低智商人群学习。

于是,这里是对其中的“Introduction”亦即“介绍”部分,做一个中文版的提纲,以便自己查阅。接下来的学习时间里,我也会整理出相应的提纲资料,一方面是为了自己查询方便(读中文还是比英文舒坦),另一方面也算是给后来者留下一个参考。想要阅读相关的其它文章的话,请点击 ml-006 这个标签。

注意,以下内容均为本人理解(除引用外),本人不对以下信息的准确性负任何责任。转载请参考右边 CC 协议。

定义

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
—- Tom Mitchell (1998)

Google 找了一番,没有找到确切的翻译,我就随便翻译一下吧。

所谓机器学习,即能够完成任务 T 的程序,其自行从 E 中学习经验,用 P 来衡量其表现;且在 T 任务上的表现 P 能够由经验 E 来提升。

举个例子:

比如我们平常所用的 GMail 的 SPAM 判定,就是一个典型的机器学习程序:
任务T:判断一封邮件是否为 SPAM
经验E:用户对 SPAM 邮件的标记(“这是垃圾邮件”)
表现P:对垃圾邮件的识别率

模型形态

广为人知的,机器学习分为两种形态,即监督式学习和非监督式学习。两种模型形态的区别主要在于训练数据集。

监督式学习(Supervised learning)

Supervised learning is the machine learning task of inferring a function from labeled training data (via wikipeia).

监督式学习的数据集中的每个点都是“right answers”,即所有的测试数据都是已知的且有着正确的标记。例如预测房价的学习算法,其每个点都是明确已知的:500 ㎡ 的房子卖 $ 100,000 美元。

而监督式学习主要用于回归分析(Regression,即输出是连续的)和数据分类(Classification,输出是离散的)。

非监督式学习(Unsupervised learning)

In machine learning, the problem of unsupervised learning is that of trying to find hidden structure in unlabeled data (via wikipedia).

相对的,非监督式学习即一组没有经过标记的数据——我们只知道这些数据在那里,并不知道这些数据之间的联系、这些数据是什么。例如 Google News 的“相关新闻”聚类:我们只有海量的新闻数据,而并不知道其意味着什么。

非监督式学习主要应用于聚类分析(Cluster analysis)。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*

code