- ACL超越性能:量化和减轻 LLMs 中的标签偏差
通过评估不同方法对模型预测中的标签偏倚进行量化研究,我们提出了一种专门用于少样本提示的新型标签偏倚校准方法,其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。
- AAAILLM 对上下文中的多数标签偏差有多健壮?
研究论文讨论了在大语言模型中,针对文本分类任务中存在的主要标签偏差引起的偏移,通过研究不同模型和任务的鲁棒性边界发现,某些大语言模型对主要标签偏差具有高度的鲁棒性(约 90%),并强调了模型大小和教学提示的丰富性对模型的鲁棒性有影响。
- 公平约束对偏见数据恢复的辅助程度有多大?
通过阈值为基础的最优公平分类器的特征,本文给出了 Blum & Stangl (2019) 结果的另一证明,并证明了其对于偏倚参数的条件既是必要的又是充分的。此外,我们还证明了对于任意数据分布,只要优化准确分类器在假设类别中是公平和稳健的, - 机器学习中缓解标签偏差:自信学习实现公平
通过筛选最公正的实例并扩展概率阈值的置信区间,结合共同教学范式以提供更可靠的选择,有效地减轻偏见标签带来的不良影响,我们的方法证明在促进公平和减少机器学习模型中标签偏见方面的有效性。
- DRAUC: 一种基于实例的分布鲁棒 AUC 优化框架
基于分布鲁棒的面积下 ROC 曲线 (DRAUC) 的模型优化框架,解决了长尾分类情景下训练和测试样本分布差异以及标签偏差的问题。
- 倾听少数族裔:用对比式预训练进行不平衡类别的加密流量分类
提出了一种新型的预训练半监督加密流量分类框架(PASS),通过重采样原始训练数据集、对相似流量样本进行对比预训练和结合伪标签迭代和动态损失加权算法的半监督优化策略,以解决流量类别不平衡和流量同质性等问题,在四个公开数据集上表现出色,显著提升 - ACL缓解上下文学习中的标签偏差
通过提出自己的划分方式,本文研究了三种在上下文学习中导致标签偏差的问题,并提出了一个基于领域的偏差校准方法,进一步优化了 GPT-J 和 GPT-3 在不同任务中的分类表现。
- ICLR单正样本多标签学习中标签偏差的理解
该研究介绍了单正多标签学习中标签偏差的研究方法,并提供了新的经验证据,以便使用仅一个正标签的图像进行有效的多标签分类。
- 去偏才能提高性能:重新审视基于简单种子的弱监督文本分类
本文重新审视种子匹配法,表明种子匹配法的性能被低估,并提出了减轻标签偏见的简单方法,从而提高了种子匹配法的性能,使其达到甚至优于先进技术的水平。
- 使用不可靠标签的无偏公平性表征学习
该研究提出了一种名为 DBRF 的公正表示学习框架,通过信息理论概念(例如相互信息和信息瓶颈)解决了标签偏见的问题,旨在实现从不可靠标签中学习面向理想公正标签的公正表示。
- 重新思考标签的价值,以改善类别不平衡学习
本研究系统研究了类别不平衡的学习及其对标签使用的影响,理论和实证表明,类别不平衡的标签可以通过半监督或自监督方法来获得显著的改进,但是在训练分类器时,先经过自监督的预训练会更优秀。
- 纠正神经机器翻译中的长度偏差
本文研究神经机器翻译中的两个问题:beam search 算法不适用于 NMT 问题,翻译结果过短。作者认为这些问题因标签偏置而产生,提出了一种通过感知机算法对一个简单的逐字奖励进行调整的解决方案来解决这一问题。