- 理解和减轻语言模型中的分词偏差
通过提出一种新颖的算法,我们可以从单词化数据中得到无偏估计,而不需要调整模型。通过 Markov 链设置,我们从标记化语言模型中精准恢复了转换概率。
- DemOpts: COVID-19 案件预测模型中的公平性修正
我们展示了最先进的深度学习模型在预测 COVID-19 病例时输出的平均预测误差在不同种族和民族群体之间存在显著差异,这可能支持不公平的政策决策。我们还提出了一种新颖的去偏方法 DemOpts,用于提高基于可能存在偏见数据集训练的深度学习预 - 双分图变分自编码器用公平潜在表示解决生态网络中的抽样偏差
我们提出了一种方法来表示双分图网络,使用定制的图嵌入方法来解决研究生态网络时面临的挑战,特别是需要考虑许多协变量,尤其是为了控制采样偏差。我们将变分图自编码器方法改编为双分图的情况,这使我们能够在潜在空间中生成节点的嵌入,这两组节点的位置是 - 无偏的基于模型的交互式推荐
通过消除流行度偏差和采样偏差问题,我们提出了一种名为可识别去偏模型交互推荐(iDMIR)的模型,它基于因果机制的时间变化推荐生成过程,克服了现有模型的两个主要缺陷,并展示出优秀的推荐性能。
- 推荐系统中的原型对比学习:通过对齐和一致性实现
通过在潜在空间中提出原型 (簇中心) 作为多样性图形的不同扩充的一致性基准,我们介绍了一种名为 ProtoAU 的推荐方法,它通过排序和保持用户和项目的原型的一致性以及统一性来解决了图对比学习中的采样偏差问题。
- 利用数据集亲和性预测在目标检测中评估训练数据
通过在标准目标检测流程中引入数据源预测模块,我们提出了一种方法来评估数据汇总的有效性,并展示了所谓的数据亲和性得分在从异构车辆数据集中自动选择样本时的好处。结果显示,即使在训练样本显著稀疏的情况下,目标检测器仍能保持检测准确性。
- 通过分布式鲁棒优化理解对比学习
该研究通过分析对比学习(CL)揭示了其对采样偏差具有内在的容忍度,并借助分布鲁棒优化(DRO)的视角填补了现有理论无法解释这一现象的研究空白,得出几个关键见解:(1)CL 实质上是在负采样分布上进行 DRO,从而在各种潜在分布中实现鲁棒性, - 我们应该相信网络抓取的数据吗?
通过网页抓取收集数据的方法存在抽样偏差,本研究指出网页抓取数据存在抽样偏差的三个原因,并通过一系列实例揭示抽样偏差的普遍性和严重性,同时提供了关于如何预测、检测和克服抽样偏差的建议。
- LMBot: 将图知识融入语言模型用于无图部署的 Twitter 机器人检测
本文提出了一种无需依赖图结构的 Twitter 机器人检测框架 LMBot,它通过在预训练语言模型中蒸馏图神经网络的知识来实现检测,解决了数据依赖性和采样偏差问题,并在四个 Twitter 机器人检测基准上取得了最新成果。
- 机器学习中的低表示和抽样偏差问题探讨
本文介绍了通过采样偏差分析和定义样本大小偏差和代表性偏差,以及探讨借助企图收集欠代表的群体样本来处理歧视的观点。
- 无偏差近摄像机训练的辐射场梯度缩放
本文提出了一种基于梯度缩放的方法,以解决 NeRF 采集中的采样偏差问题,避免了在不需要使用近平面的情况下出现背景坍塌问题。
- ICML组合覆盖下的主动学习
本文提出一种利用组合覆盖来解决机器学习中主动学习的数据样本选择方法,相较于现有模型导向性的方法,新方法具有更好适用性,能够有效降低模型转移和采样偏差问题。
- ICML可分解共变移位的域自适应
该论文提出了一个新的处理从共变量和标签中引入偏差的方法(Factorizable Joint Shift, FJS),并提出了一种新的联合重要性对齐(Joint Importance Aligning, JIA)的方法来获得用于监督和无监督 - ICML在主动学习中减轻采样偏差并提高鲁棒性
该论文提出了简单而高效的方法来减轻主动学习中的采样偏差,同时实现最先进的精度和模型鲁棒性。通过引入有监督对比主动学习和选择具有多样的特性表示的信息性数据样本的无偏查询策略,我们的方法:SCAL 和 DFM,实验表明,所提出的方法降低了采样偏 - ICML在大型输出空间中分解采样和标记偏差的学习
本文研究了负采样机制与应对标签不平衡的损失函数修改技术之间的关系,并表明不同的负采样机制在提高优势标签和稀有标签性能之间存在权衡,提供了一种统一的处理采样偏差和标签偏差的方法,并在长尾分类和检索基准上进行了实证验证。
- AAAI利用文档级结构信息进行图像 - 句子匹配的无监督采样方法
本文提出了一种基于 Transformer 模型的采样策略,用于减轻采样偏差以及识别文档内部的复杂模式,并实验验证了模型的有效性,从而实现了无监督图像 - 句子匹配。
- KDD卷积神经网络有效版本空间缩减
本研究通过版本空间缩减的原则分析卷积神经网络的主动学习,提出了一种基于直径缩减的最小 Gibbs 投票不一致性查询方法,并通过对 MNIST、Fashion-MNIST、SVHN 和 STL-10 数据集的实验验证,证明了缩小版本空间的直径 - EMNLP深度主动分类中的采样偏差:实证研究
本文通过大量经验研究,证明了利用 FastText.zip(FTZ)深度模型的后验熵进行主动集合选择对抗采样偏差和各种算法选择具有鲁棒性,并提出了基于深度主动文本分类的简单基线,可用于数据集压缩和半监督 / 在线学习场景。
- KDD信用评分中的拒绝推断浅层自学习
本文提出了一种自我学习的框架和一种新的评估措施,用于处理样本偏差和拒绝推断问题,并在真实的信用评分数据集上进行了测试,证明其相对于传统的自我学习和拒绝推断策略具有更好的性能和评估效果。
- ICCV通过增强分布对齐的半监督学习
本文提出了一种简单而有效的半监督学习方法,称为增强分布对齐,以解决有限标记样本导致的采样偏差问题,并介绍了一些实现策略(比如采用对抗式训练、插值策略等),同时在 SVHN 和 CIFAR10 数据集上进行了验证。