模型的评估指标(一)
模型的开发基于历史数据,而模型的使用则针对未来的数据
- 模型在训练集上的误差(即真实结果与预测结果间的差异)称为训练误差或经验误差
- 模型在验证集与测试集上的误差称为泛化误差。
正负样本的选择
- 二分类问题中有正负样本的概念,多分类中不需要定义
- 正负样本的定义没有明确的要求,但是在正负样本定义完后计算指标的含义会有所差异
#往往将少数样本定义为正样本
少数样本为正样本,即以违约样本(坏样本)为正样本好处:
1>方便应对样本的不均衡问题
2>关注对坏样本的预测能力更符合业务场景。
以多数样本作为正样本,即以没有发生违约的样本(好样本)好处 :
1>比较直观 好样本为正样本,坏样本为负样本比较合适
2>更关注的是坏账率与通过率
理想的评分卡模型是最大化通过率,最小化坏账率。
混淆矩阵
混淆矩阵作为基础 大家应该明白其中含义。
通过率定义为模型判断为好样本的数量占总样本数的比例,如下:
坏账率定义为模型判断为好样本中真正的坏样本所占的比例,即模型给予申请通过后实际发生逾期与整个通过样本的比例,如下:
根据混淆矩阵可知,模型的 Percision 精准率定义如下:
在选择好样本作为正样本时,其坏账率就是 1-Precison。因此,在模型优化时设法让 Percison 越高,得到的回报就是坏账率越低,这是一个非常好的性质。
注意:在模型开发完成后,实际计算通过率与坏账率,还要考虑拒绝样本与不确定样本。拒绝样本是建模前原有的风控策略所拒绝授信的那部分样本,而实际的建模数据本质上是风控策略给予授信的好样本,即建模数据只是整个申请样本中通过审批的那一部分样本。比如平台可以接受最少 80%的通过率,即整个申请样本的 80%样本参与建模。而不确定样本是这些 80%的通过样本中,由于没到表现期或不满足某些条件而不参与建模的样本。因此,在应用新的评分卡模型与原有风控策略对比时,要将这些拒绝样本和不确定性样本都考虑进去。这里给出的公式显然缺少了拒绝样本和不确定样本,因此,上述说明的情况只是在模型训练时从模型端出发,采用好样本作为正样本的一点好处。
标准评估指标
给 定 数 据 集 T={(x1,y1),(x2,y2),…, (xN,yN)} , 其 中xTi=(xi1,xi2,…,xid) 为第 i 个输入样本,d 表示特征个数,yi∈{0,+1}为第 i 个样本的标签结果,N 为样本数。假设模型的预测结果用 f(xi)表示。
对于回归问题,常用的评估指标为均方误差(Mean SquaredError,MSE),即真实值与预测值偏差平方和的平均数
对于分类问题,常用的评估指标为错误率或精度,错误率的
定义为
其中,I(f(x)≠y)为指示函数,如条件成立时,输出为 1,条件不成立时,结果为 0。因此,错误率就是被错分的样本数占总体
样本数的比例。
精度也称为正确率,1-错误率即为精度。
注意:申请评分中更关心模型对坏样本的准确预测能力;而在反欺诈应用中,更关心模型预测的欺诈用户中有多少是真实欺诈的用户.
以少数样本为正样本计算模型的预测输出,得到的混淆矩阵:
定义坏样本为正样本,其中 TP 表示正确拒绝的样本数;FN 表示漏报的样本数即被错误准入的样本数;TN 表示正确准入的样数;FP 表示误报的样本数即被错误拒绝的样本数。
错误率:
精度或正确率:
召回率衡量了在所有正例中模型正确预测的概率,召回率与
漏报率相对,即召回率越高,漏报率越小。
精准率衡量了所有模型预测为正例的样本中真实为正例的概
率,精准率与误报率相对,即精准率越高,误报率越少。
漏报率:错误的当成正确的个数/错误的个数,也就是1-recall
误报率:正确的当成错误的个数/正确的个数,也就是FPR(假正率)
注意:召回率与精准率是一对相互制约、此消彼长的指标,实际应用中往往会牺牲某一指标来提高另一指标.
P-R曲线:
以召回率为横坐标、精准率为纵坐标。
作用:
- 1.通过曲线与坐标轴围成的面积来比较模型性能的优劣
- 2采用平衡点(Break Even Point,BEP)来衡量模型的优劣。
令每个分类模型的召回率与精准率相等即为该模型的 BEP,BEP 越大,则模型的性能越好.
F1 指标可以更方便地完成模型的性能度量。F1 指标计算公式如下:
F1 指标综合考虑了召回率与精准率两种情况,如果希望考虑
更多的召回率或精准率,则有如下的变异形式,即 Fβ 指标。
当β=1 时,Fβ 指标蜕化为 F1 指标,此时召回率与精准率的重要程度相同;当 β>1 时召回率的影响大于精准率;相反,当β<1 时,精准率的影响大于召回率.
小结:标准评估指标的本质是从模型预测结果出发来度量模
型性能优劣的。
- 分类模型从混淆矩阵中得到各种不同的性能指标,
- 回归模型直接从预测结果与真实结果的偏差角度进行分析。
概率密度评估指标
以二分类问题为例,模型往往经过 sigmoid 函数将概率值转化为分类标签,即概率大于等于 0.5 被判断为正例,小于 0.5 被判为负例。因此,可以得到模型预测正负样本的概率密度曲线,
基于概率密度的评估指标其本质就是度量两个概率密度函数相互独立的可能性有多大。
可以看出第一个分类器的性能优于第二个分类器的性能
量化指标的实现方式
熵的概念:概率是表征随机变量确定性的度量,而信息是随机变量不确定性的度量,熵是不确定性度量的平均值,即为信息的平均值
常见的熵如表:
黑色部分为未知的部分,而白色部分为已知的部分。即 H(X)熵表征了随机变量 X 的不确定性度量的平均值。
其中,互信息就是 ID3 决策树训练阶段变量选择采用的衡量
指标,即互信息就是信息增益。
Logistic损失函数:
相对熵,也称为 K-L 散度(Kullback–Leibler divergence)
K-L 散度是两个随机分布之间距离的度量,就是似然比的对数期望,这正是要找的衡量两个概率密度函数独立性的指标。
K-L 散度没有对称性
所以两个随机分布之间的 K-L 散度求和,这个求和后的距离越大,证明两个随机分布的距离越大,即独立性越好,模型的预测效果越好
得到了一个具有对称性的距离,即为 K-L 距离
如果我们将上述的两个随机分布换为模型预测后得到的正负样本的概率密度函数 f(p|B)与 f(p|G),就得到下列公式:
将公式写成离散形式,即连续变量分箱后的形式
对称化后的 K-L 散度即 K-L 距离就是IVInformation Value)值
IV 值越大,该变量对好坏样本的区分度就越强,也就是变量对目标变量的预测能力越好。小结:IV 值其本质就是 K-L 距离,在每个区间的 IV 值越大,表示在这个区间内正负样本的概率密度函数 f(p|B)与 f(p|G)的距离就越大,在该区间内变量对好坏样本的区分度就越高,而整个变量的 IV 值就是每个区间的 IV 值加和
IV 值可以用来选择预测能力强的变量,在模型评估中可以用来衡量不同模型的预测性能。
后续还有概率分布评估指标,继续详解。
概率分布评估指标
原文地址:https://blog.csdn.net/duyibo123/article/details/110003886
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 809451989@qq.com 进行投诉反馈,一经查实,立即处理!