通过实验和在线 A/B 测试,我们证明在数据收集程序满足自然条件时,样本数据有系统的负偏差。我们提出了一种基于选择性推理技术的新型去偏算法,可以在各种情况下有效地减少偏差和估计误差。
Aug, 2017
本文探讨了后验温度的调整在贝叶斯神经网络中的作用以及先验的影响,研究发现,在高质量的分类数据集如 MNIST 或 CIFAR 中,经常使用的先验能够显著地高估标签的不确定性。研究在高斯过程回归中发现,任何正数的温度都对应于一个经过修改的先验下的有效后验,而调整后验温度直接类比于经验贝叶斯。当应用于分类任务时,调整先验并不直接等同于调整后验温度,但是降低后验温度可以得到更好地反映新增训练样本信息的模型。因此,虽然冷后验并不总是对应于精确的推理过程,但我们认为,它们可能更好地反映了我们真实的先验信念。
Jul, 2020
通过 Bias-mitigating Hard Negative Sampling (BHNS) 算法来解决负面采样中产生的 pooling bias 问题,提高产品相关性评估的准确性和效率。
Nov, 2023
在我们的研究中,我们提出了一个信念形成模型,其中代理试图区分两种理论,证实和证伪证据之间的强度不对称性使得信念倾向于生成强(可能是罕见的)证实证据和弱(频繁的)证伪证据的理论。在我们的模型中,信息处理的限制导致代理倾向于审查弱证据,这导致在某些区分问题中,证据可能大部分是单面的,与真实的基本理论无关。了解被审查的数据生成过程特征的复杂代理不会被这些所谓的 “证据” 所迷惑,但是不太复杂的代理最终会形成有偏见的信念。
Oct, 2023
通过仿真研究纽约市 “停止、质问和搜身” 数据集,我们评估了在基于数据的算法决策规则受到人类偏见决策者的训练数据上训练的情况下,是否必然反映此偏见的民间智慧,并且发现算法性质可以反转此偏见取决于原因。
Sep, 2019
本文研究了自动学习偏见的模型,该模型假设学习者嵌套在相关学习任务的环境中,并在此环境中搜索包含良好解决方案的假设空间,进而获得更好的推广效果。
Jun, 2011
在机器学习模型中,对小众群体的收入水平等指标的预测偏低通常源于样本量过小导致的系统性和方向性统计偏差。
Jul, 2023
本文中,我们探讨了如何在正样本和未标注样本数据集的有选择偏差中进行有监督学习,并提出了一种基于经验风险的方法来加入标签机制和解决未知标签机制的情况,实验证明,即使在未知标签机制的情况下,考虑可能存在的选择偏差也会提高分类器的训练效果。
Sep, 2018
本文通过研究感知偏差的强度程度,探讨了过度拟合噪声现象所谓 “良性过度拟合” 或 “无害插值” 时的影响因素,给出了高维卷积核回归收敛界限的紧密非渐进限制,并提供了旋转不变性差异的不同滤波器尺寸深度神经网络的经验证据。
Jan, 2023
本文旨在通过设计包含不同时简单性的多个预测特征的数据集,捕捉实际训练数据中的非鲁棒性,从理论和实证研究中发现简洁性偏见在训练神经网络中的作用及其对泛化和鲁棒性的影响,提出新算法以避免简洁性偏见的缺陷。
Jun, 2020