当前位置: 首页 > news >正文

如何对模型进行评估

机器学习

没有免费午餐定理和三大机器学习任务
如何对模型进行评估
K-Means(K均值聚类)原理及代码实现
KNN(K最近邻算法)原理及代码实现
KMeans和KNN的联合演习


文章目录

  • 机器学习
  • 一、一些概念
  • 二、评估方法
  • 三、调参:


一、一些概念

  • 错误率(error rate):在n个样本中有a个错误数据,则 E = a m E=\frac{a}{m} E=ma
  • 精度(accuracy): A c = ( 1 − E ) × 100 Ac=(1−E)×100 Ac=(1E)×100%。
  • 训练误差/经验误差(training error/empirical error):在训练集上的误差。
  • 泛化误差(generalization error):在新样本(测试集)上的误差。
  • 过拟合(overfitting):把训练集自身的特点当作了所有潜在样本都会具有的特点。过拟合是机器学习的关键障碍,过拟合是无法避免只能缓解的。
  • 欠拟合(underfitting):对训练集的一般性质尚未学习好。

二、评估方法

测试集和训练集应该尽可能互斥。
“没有免费午餐”定理对评估方法同样适用。

表示:
D-数据集
S-训练集
T-测试集

1. 留出法(hand-out): D D D 划分为互斥的 S S S T T T
即: D = S ∪ T , S ∩ T = ∅ D=S∪T, S∩T=∅ D=ST,ST=

E = T ( e r r ) s i z e ( T ) E=\frac{T(err)}{size(T)} E=size(T)T(err)
T ( e r r ) T(err) T(err) 是在T中错误样本的数据。

注意:
(1) 划分时应尽可能保证数据分布的一致性,避免因数据划分引入额外的偏差(采用分层抽样法)。
(2) 单词使用留出法的结果并不可靠,应该采用若干次随机划分重复进行实验评估后取均值。

缺点:
(1) S S S 越大,训练结果越接近 D D D,但是 T T T小,评估不够准确,稳定。
(2) T T T 大一些, S S S 的结果不接近 D D D,降低了保真性(fidelity)。常用 2 3 \frac{2}{3} 32~ 4 5 \frac{4}{5} 54 用于 S S S

2. 交叉验证法(cross validation): D D D 划分为 k k k 个大小相似的互斥子集。
即:
D = D 1 ∪ D 2 ∪ D 3 ∪ … ∪ D k , D i ∩ D j = ∅ ( i ≠ j ) D=D_1∪D_2∪D_3∪…∪D_k, D_i∩D_j=∅ (i≠j) D=D1D2D3Dk,DiDj=(i=j)

进行 k k k 次训练,每次用 k − 1 k−1 k1 个子集作为 S S S,余下的一个子集作为 T T T。( k k k折交叉验证 k-fold cross validation)。

注意:
(1) 尽可能保证数据分布的一致性。
(2) 评估结果的稳定性和保真性在很大程度上取决于 k k k值, k k k一般选用5、10、20。
(3) 单次不可靠,随机划分重复 p p p次,取 p p p k k k折交叉验证结果的均值。(10次10折=训练100次)

在这里插入图片描述

2.1. 留一法(leave-One-Out): m m m D D D 的大小, k = m k=m k=m 时,得到留一法。
注意:它不受随机样本划分方式的影响。
优点:由于 S S S 接近 D D D,所以它的评估结果比较准确。
缺点: m m m 越大,开销越大。

3. 自助法(bootstrapping): D D D中多次随机可重复复制 m m m个样本组成数据集 D ′ D′ D。( D D D 中有一部分样本会在 D ′ D′ D 中多次出现,而一部分不会出现)样本在 m m m 次采样中,不被采集到的概率是:
lim ⁡ m → 0 ( 1 − 1 m ) m = 1 e ≈ 0.368 \lim_{m\rightarrow 0}(1-\frac{1}{m})^m=\frac{1}{e}\approx0.368 m0lim(1m1)m=e10.368即: D D D 中约有36.8%的样本未出现 D ′ D′ D 中。
S = D ′ , T = D − D ′ S=D′, T=D−D′ S=D,T=DD实际评估模型和期望评估模型都使用m个样本,而有约 1 3 \frac{1}{3} 31 的未出现在在 S S S 中的样本用于测试——外包估计(out-of-bag estimate)
优点:
(1) 在 D D D 较小,难以划分 S / T S/T S/T 时很有用。
(2) 能从 D D D 中产生多个不同的 S S S
缺点:
改变了 D D D 的分布,会引入估计偏差 D D D 足量时,留出法和交叉验证法更常用。

三、调参:

(1) 常对每个调整的参数设定一个范围和变化步长。
(2) 在模型、算法和参数选定后,用 D D D 重新训练。

原文地址:https://blog.csdn.net/weixin_45181983/article/details/125811044

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 809451989@qq.com 进行投诉反馈,一经查实,立即处理!

相关文章:

  • 模型评估的基本方法
  • 七、模型评估指标
  • 【机器学习】模型评估
  • 关于模型的评估指标(超详细)
  • margin失效问题——嵌套块元素引起的外边距坍塌
  • 页面布局高度塌陷问题和解决方案
  • 移动端开发rem实现屏幕适配及处理页面加载页面坍塌样式错乱网页闪烁问题
  • 实现边坍塌的网格简化方法
  • 盒子模型塌陷解决办法
  • LAMMPS模拟in和data文件集合
  • GAN_1——基础知识
  • [GAN学习笔记] 基础GAN(三)——WGAN
  • css防止高度塌陷,css之高度塌陷及其解决方法
  • 计算机图形学笔记十:Geometry3(网格处理)
  • 怎么样上台演讲(结合ppt)。。超级实用。。。
  • 商务流程
  • 业务范围(business area)
  • 国内外知名云服务公司介绍
  • 什么是企业管理咨询服务?
  • MiL.k x Bithumb x Yanolja宣布建立三方商务及市场营销合作关系