最近在 Coursera 上参加 Andrew Ng 的 Machine Learning 课程，感觉颇为良好， AN 的课讲得很是生动，也比较深入浅出，适合我这种低智商人群学习。

于是，这里是对其中的“Introduction”亦即“介绍”部分，做一个中文版的提纲，以便自己查阅。接下来的学习时间里，我也会整理出相应的提纲资料，一方面是为了自己查询方便（读中文还是比英文舒坦），另一方面也算是给后来者留下一个参考。想要阅读相关的其它文章的话，请点击 ml-006 这个标签。

注意，以下内容均为本人理解（除引用外），本人不对以下信息的准确性负任何责任。转载请参考右边 CC 协议。

定义

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
—- Tom Mitchell (1998)

Google 找了一番，没有找到确切的翻译，我就随便翻译一下吧。

所谓机器学习，即能够完成任务 T 的程序，其自行从 E 中学习经验，用 P 来衡量其表现；且在 T 任务上的表现 P 能够由经验 E 来提升。

举个例子：

比如我们平常所用的 GMail 的 SPAM 判定，就是一个典型的机器学习程序：
任务T：判断一封邮件是否为 SPAM
经验E：用户对 SPAM 邮件的标记（“这是垃圾邮件”）
表现P：对垃圾邮件的识别率

模型形态

广为人知的，机器学习分为两种形态，即监督式学习和非监督式学习。两种模型形态的区别主要在于训练数据集。

监督式学习（Supervised learning）

Supervised learning is the machine learning task of inferring a function from labeled training data (via wikipeia).

监督式学习的数据集中的每个点都是“right answers”，即所有的测试数据都是已知的且有着正确的标记。例如预测房价的学习算法，其每个点都是明确已知的：500 ㎡的房子卖 $ 100,000 美元。

而监督式学习主要用于回归分析（Regression，即输出是连续的）和数据分类（Classification，输出是离散的）。

非监督式学习（Unsupervised learning）

In machine learning, the problem of unsupervised learning is that of trying to find hidden structure in unlabeled data (via wikipedia).

相对的，非监督式学习即一组没有经过标记的数据——我们只知道这些数据在那里，并不知道这些数据之间的联系、这些数据是什么。例如 Google News 的“相关新闻”聚类：我们只有海量的新闻数据，而并不知道其意味着什么。

非监督式学习主要应用于聚类分析（Cluster analysis）。

机器学习 – 简介

定义

模型形态

监督式学习（Supervised learning）

非监督式学习（Unsupervised learning）

评论

发表评论