分类问题中的类别不平衡-总结

2021年11月22日 阅读数:2
这篇文章主要向大家介绍分类问题中的类别不平衡-总结,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

问题形式
该问题通常指的是训练集中正负样本数比例相差过大,其通常会形成如下的一些状况:算法

  1. 类别少的误判惩罚太低,致使有所偏袒,当样本不肯定时倾向于把样本分类为多数类。
  2. 样本数量分布很不平衡时,特征的分布一样会不平衡。
  3. 传统的评价指标变得不可靠,例如准确率。

常看法决方法spa

  1. 进行重采样,过采样 或 欠采样
  2. 人工合成新的数据。 1)基于经验,对属性值进行随机采样,生成新的样本。2)基于贝叶斯理论,对属性值进行随机采样,可能会缺乏以前属性之间的线性相关性。3)基于系统的人工样本生成方法,SMOTE(Synthetic Minority Over-sampling Technique),相似于KNN的数据生成算法。
  3. 尝试多种分类算法,不一样的数据形式,适合不一样的算法,尝试多种分类算法和不一样的评价指标进行比较。
  4. 尝试对模型进行惩罚,即对模型参数进行调整,例如SVM或XGBoost等。
  5. 尝试一个新的角度理解问题。1.看成异常点检测便是对那些罕见事件进行识别。2.化趋势检测相似于异常点检测,不一样在于其经过检测不寻常的变化趋势来识别。
  6. 尝试着将问题分解成多个子问题进行求解。
  7. 尝试多模型融合。
  8. 将大样本聚成K个类别,每一个类别分别与小样本进行训练生成分类器,再将K个结果做为判断标准进行判断,例如多数表决,或做为特征再生成新的模型等等。

 

 

 

参考:.net

https://blog.csdn.net/heyongluoyao8/article/details/49408131blog