Aug, 2022

不均衡分类中的重采样和滤波权衡

TL;DR在处理高度不平衡的标记分类任务中,选择训练数据的方式会对模型性能产生效果和效率方面上的权衡。在使用英语和阿拉伯语文本序列标记实验中,不同的训练数据选择方法带来了不同的效果和效率权衡;在对高度不平衡情况下的模型性能测试中,使用基于一次检索模型的测试数据过滤和训练数据选择同样重要。而变化的幅度取决于所研究的现象基础率。