logistic回归的or值怎么算（了解XGBoost的对数损失）

非诚也扰 2023-03-18 20:46:57

数据科学大量使用代数，统计，微积分和概率的概念，也借用了很多数学术语。机器学习(ML)是数据科学中的一个令人着迷的领域，它依赖于数学。XGBoost是一种基于梯度提升决策树的流行且越来越主导的机器学习（ML）算法，可以用于分类和回归问题，并且因其性能和速度而闻名。XGBoost使用一种称为“对数损失”的流行度量，就像大多数其他梯度提升算法一样。该基于概率的度量用于测量分类模型的性能。但在我们开始使用它来评估我们的模型之前，有必要了解它背后的数学。本文涉及对数损失的数学概念。在本文中，我们将简要介绍它如何影响ML分类算法的性能，尤其是XGBoost。

定义对数损失

对数损失（Log loss）是 logarithmic loss的简称，是一个用于分类的损失函数，用来量化在分类问题中预测不准确所付出的代价。对数损失通过考虑分类概率来惩罚错误分类。为了阐明这个概念，让我们首先回顾一下这个术语的数学表示：

logistic回归的or值怎么算（了解XGBoost的对数损失）(1)

在上面的等式中，N是实例或样本的数量。'yi'将是第i个实例的可能结果。实例可以假设有两个结果，例如0和1.在上面的等式中，'yi'将是1，因此'1-yi'是0.'pi'表示概率假设值为'yi'的第i个实例。换句话说，对数损失累计样本假定状态0和1都超过实例总数的概率。等式背后的简单条件是：对于真实输出（yi），概率因子是-log（真实输出的概率），而另一个输出是-log（1-真实输出的概率）。

让我们尝试在Python中以编程方式表示条件：

logistic回归的or值怎么算（了解XGBoost的对数损失）(2)

如果我们看一下上面的方程，预测的输入值0和1是没有定义的。为了解决这个问题，log loss函数将预测概率(p)调整为很小的epsilon值。这个epsilon值通常保持为(1e-15)。因此，我们可以通过应用以下Python代码来进行此调整:

max(min(p, 1−10^−15), 10^-15)

在此操作中，可能会发生以下情况：

当p = 0时：

应用min函数（0<1−10^−15→0）
应用max函数（10^−15>0→1e-15）
因此，我们提交的概率为0将转换为10^−15

当p = 1时：

应用min函数（1-10^−15<1→1-10^−15）
应用max函数（1-10^−15>10^−15→1-1e-15）
因此，我们提交的1的概率被转换为1-10^−15

现在，让我们复制上面的整个数学方程式,Python代码如下：

logistic回归的or值怎么算（了解XGBoost的对数损失）(3)

我们也可以将其表示为R中的函数：

LogLossBinary = function(actual, predicted, eps = 1e-15) { predicted = pmin(pmax(predicted, eps), 1-eps) - (sum(actual * log(predicted) (1 - actual) * log(1 - predicted))) / length(actual) }

在我们讨论如何在分类算法中实现这一概念之前，让我们先简要介绍另一个与对数损失相关的概念。交叉熵是一个类似的度量，随着预测概率偏离实际标签，与之相关的损失也会增加。一个完美的模型应该有一个对数损失值或交叉熵损失值为0。那么，为什么它们是两个不同的项呢?

当涉及到机器学习算法时，交叉熵是对数损失的更一般形式。对数损失用于二元分类算法，交叉熵用于多元分类问题。换句话说，当有两种可能的结果时使用对数损失，当有两种以上可能的结果时使用交叉熵。

方程可表示为:

logistic回归的or值怎么算（了解XGBoost的对数损失）(4)

在这里，“M”是给定情况下可能出现的结果或标签的数量。与上式相似，“pij”是模型将标号j赋值给实例i的概率，让我们通过一个例子来理解这一点:

让我们假设一个问题，我们必须预测一个学生在考试中根据他的属性可以得到的分数范围。如果有三种可能的结果：高，中，低由[（1,0,0）（0,1,0）（0,0,1）]表示。现在，对于特定学生，预测概率为（0.2,0.7,0.1）。这表明预测的分数范围很可能是“中”，因为概率最高。因此，交叉熵误差将是：

CE_loss = -(ln(0.2)(0) ln(0.7)(1) ln(0.1)(0))

= -(0 (-0.36)(1) 0)

= 0.36

现在，我们已经了解了这个理论，我们可以更好地开始在机器学习分类模型中使用它。
,

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

目前人类飞出太阳系没有（43年飞行225亿公里得出悲观结论）

蹲厕等死
敦煌到西宁自驾游最佳路线攻略（一天穿越四季敦煌至当金山口高速公路探路记）

閉關修煉
rottkron乐旷新品耳饰耳机（惊喜ROttKRON乐旷发布新品）

为一人留
贺国丰平凡的世界片尾曲（平凡的世界不平凡的人生）

囚我終老
脾胃虚寒的人不能吃什么食物（很多食物不能吃吗）

謀妞妞想伱
三种指纹解锁方式（指纹解锁的时代那么）

摩擦摩擦
武昌老手表厂在哪里（锡城表市年销售上亿元）

说多勒芯庝

秒懂生活

logistic回归的or值怎么算（了解XGBoost的对数损失）

猜您喜欢

目前人类飞出太阳系没有（43年飞行225亿公里得出悲观结论）

敦煌到西宁自驾游最佳路线攻略（一天穿越四季敦煌至当金山口高速公路探路记）

rottkron乐旷新品耳饰耳机（惊喜ROttKRON乐旷发布新品）

贺国丰平凡的世界片尾曲（平凡的世界不平凡的人生）

脾胃虚寒的人不能吃什么食物（很多食物不能吃吗）

三种指纹解锁方式（指纹解锁的时代那么）

武昌老手表厂在哪里（锡城表市年销售上亿元）

热门推荐

排行榜