偶数AI小课堂：主流机器学习算法大盘点（收藏向）

通过这篇文章，大家将对监督学习中最流行的机器学习算法以及它们之间的关系有进一步理解。

随着机器学习算法不断涌现，纷繁复杂的算法名让人眼花缭乱，但只要抓住命名的核心，即可轻松了解算法本质及其使用场景。

接下来，我们引入两种思考与分类，帮你更快地掌握认识他们。

按学习风格对算法进行分组；
通过算法在形式或功能上的相似性进行分组（例如将相似的动物分组在一起）。

以下为通过相似性对算法进行分组，带你了解各种不同的算法类型。

一、按学习风格分组的算法

算法可以通过不同的方式对问题进行建模，一般是根据问题与经验、环境的交互或我们想要调用的输入数据。需要注意的是在人工智能教科书中首先考虑算法可采用的学习方式，我们将在此处通过一些算法示例和适合的问题类型来介绍这几种学习方式。

这种分类或组织机器学习算法的方法很有用，因为它可以促进您考虑输入数据和模型准备过程的作用，并选择最适合问题的方法以获得最佳结果。

机器学习算法中的三种不同的学习风格：

1.监督学习

输入数据又称训练数据，具有已知的标签或结果，例如邮件（分为垃圾邮件和非垃圾邮件）或一次股票价格。

模型是通过训练过程准备的，在该过程中需要进行预测并在这些预测错误时进行纠正。训练过程一直持续到模型在训练数据上达到所需的准确度水平。

示例场景包括：

分类和回归；
逻辑回归和反向传播神经网络。

2.无监督学习

输入数据没有标记，也没有已知结果。通过推断输入数据中存在的结构来准备模型。这可能是为了提取一般规则。可能是通过数学过程来系统地减少冗余，也可能是通过相似性来组织数据。

示例场景包括：聚类、降维和关联规则学习。

示例算法包括：Apriori 算法和 K-Means。

3.半监督学习

输入数据是标记和未标记示例的混合。有一个期望的预测问题，但模型必须学习结构来组织数据并进行预测。

示例场景包括：分类和回归。

示例算法是其他灵活方法的扩展，这些方法对如何给未标记数据进行建模做出假设。

机器学习算法概述

在处理数据以对业务决策建模时，我们通常情况使用监督和无监督两种学习方法。但目前半监督学习方法非常热门，在图像分类等领域有大量数据集和很少的标记示例。

二、按相似性分组的算法

算法通常按其功能（它们的工作方式）的相似性进行分组。例如，基于树的方法和神经网络启发的方法。我认为这是对算法进行分组的最有用的方法，也是我们将在此处使用的方法。

这是一种有用的分组方法，但并不完美。仍然有一些算法可以很容易地适应多个类别，例如学习矢量量化，它既是一种受神经网络启发的方法，也是一种基于实例的方法。还有一些具有相同名称的类别来描述问题和算法，例如回归和聚类。我们可以通过多次列出算法或选择主观上“最”适合的组来处理这些情况。

在本节中，我们列出了许多流行的机器学习算法，并按照我们认为最直观的方式进行分组。

请注意：对用于分类和回归的算法存在强烈偏见，这是您将遇到的两个最普遍的监督机器学习问题。

1.回归算法

回归涉及对变量之间的关系进行建模，该关系使用模型预测中的误差度量进行迭代细化。回归方法是统计学的主力，并已被纳入统计机器学习。这可能会令人困惑，因为我们可以使用回归来指代问题类别和算法类别。实际上，回归是一个过程。

最流行的回归算法是：

普通最小二乘回归 (OLSR)
线性回归（Linear Regression）
逻辑回归（Logistic Regression）
逐步回归（Stepwise Regression）
多元自适应回归样条 (MARS)
本地散点平滑估计 (LOESS)

2.基于实例的算法

基于实例的学习模型是一个决策问题，其中包含被认为对模型重要或需要的训练数据的实例或示例。此类方法通常建立示例数据的数据库，并使用相似性度量将新数据与数据库进行比较，以便找到最佳匹配并进行预测。出于这个原因，基于实例的方法也被称为赢家通吃的方法和基于记忆的学习。重点放在存储实例的表示和实例之间使用的相似性度量上。

最流行的基于实例的算法是：