Logistic Regression and Generalized Linear Models

RPChe_

本文继续介绍了 Logistic Regression 与 Generalized Linear Models 。

Logistic Regression

  • 先前介绍的线性回归被用于处理回归问题,即标签是连续的。现在我们考虑二分类问题[^1],即要为数据点决定标签 。一个直接的思路是直接按照线性回归来处理,但这样做往往是不好的,一个显而易见的缺点是 范数受离群点影响显著,而且我们并没有必要设置 之外的预测值。

    一个经典的解决方式是选择 sigmoid 函数 1,以将仿射函数的值压缩到 中,即将假设写作: 注意此处仍固定 。 我们也可以选择其它函数,但 sigmoid 往往是最为经典且方便的方式。现在我们希望基于此构建训练方式,关键是将预测值视为标签 的概率,这样在分类时我们就将概率更高的一类作为预测类别。假设数据集中的样本是独立采样的,注意到: 按照 MLE ,容易得到: 可以看出上式形式上形似相对熵,在机器学习中被称作交叉熵损失。2对其求导得到: 做梯度下降即可。特别的,该形式与线性回归的导数类似。可以更广泛的一类模型(称作 Generalized Linear Models)都具备类似的性质。

  • 可以看出线性回归和逻辑回归的分类边界其实都是超平面,但由于训练方式的不同,它们的具体拟合结果当然是有区别的。

Generalized Linear Models

  • 到时候再写。

  1. 大概意思是曲线 形似 S ,对应希腊字母 sigma 。↩︎

  2. 机器学习中常常有这样的借喻。我们知道相对熵衡量了分布的差异,但上式其实并不能直接视作分布的比较。另一方面,即使其形式上不是交叉熵而是相对熵,传统上我们仍使用前者指代。说到底,这样的命名确实是不不准确的。↩︎

  • 标题: Logistic Regression and Generalized Linear Models
  • 作者: RPChe_
  • 创建于 : 2025-09-18 00:00:00
  • 更新于 : 2025-09-22 00:31:57
  • 链接: https://rpche-6626.github.io/2025/09/18/ML/logi/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论
目录
Logistic Regression and Generalized Linear Models