机器学习 – 简介

最近在 Coursera 上参加 Andrew Ng 的 Machine Learning 课程,感觉颇为良好, AN 的课讲得很是生动,也比较深入浅出,适合我这种低智商人群学习。

于是,这里是对其中的“Introduction”亦即“介绍”部分,做一个中文版的提纲,以便自己查阅。接下来的学习时间里,我也会整理出相应的提纲资料,一方面是为了自己查询方便(读中文还是比英文舒坦),另一方面也算是给后来者留下一个参考。想要阅读相关的其它文章的话,请点击 ml-006 这个标签。

注意,以下内容均为本人理解(除引用外),本人不对以下信息的准确性负任何责任。转载请参考右边 CC 协议。

定义

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
—- Tom Mitchell (1998)

Google 找了一番,没有找到确切的翻译,我就随便翻译一下吧。

所谓机器学习,即能够完成任务 T 的程序,其自行从 E 中学习经验,用 P 来衡量其表现;且在 T 任务上的表现 P 能够由经验 E 来提升。

举个例子:

比如我们平常所用的 GMail 的 SPAM 判定,就是一个典型的机器学习程序:
任务T:判断一封邮件是否为 SPAM
经验E:用户对 SPAM 邮件的标记(“这是垃圾邮件”)
表现P:对垃圾邮件的识别率

模型形态

广为人知的,机器学习分为两种形态,即监督式学习和非监督式学习。两种模型形态的区别主要在于训练数据集。

监督式学习(Supervised learning)

Supervised learning is the machine learning task of inferring a function from labeled training data (via wikipeia).

监督式学习的数据集中的每个点都是“right answers”,即所有的测试数据都是已知的且有着正确的标记。例如预测房价的学习算法,其每个点都是明确已知的:500 ㎡ 的房子卖 $ 100,000 美元。

而监督式学习主要用于回归分析(Regression,即输出是连续的)和数据分类(Classification,输出是离散的)。

非监督式学习(Unsupervised learning)

In machine learning, the problem of unsupervised learning is that of trying to find hidden structure in unlabeled data (via wikipedia).

相对的,非监督式学习即一组没有经过标记的数据——我们只知道这些数据在那里,并不知道这些数据之间的联系、这些数据是什么。例如 Google News 的“相关新闻”聚类:我们只有海量的新闻数据,而并不知道其意味着什么。

非监督式学习主要应用于聚类分析(Cluster analysis)。

评论

还没有评论。

发表评论

发表评论代表你授权本网站存储并在必要情况下使用你输入的邮箱地址、连接本站服务器使用的 IP 地址和用户代理字符串 (User Agent) 用于发送评论回复邮件,以及将上述信息分享给 Libravatar Akismet,用于显示头像和反垃圾。