本文研究如何在模型错配偏差情况下学习线性预测模型。我们提出了一种样本重新加权方法,该方法可以减少输入变量之间的共线性,从而提高设计矩阵的条件,并与任何标准学习方法相结合,用于参数估计和特征选择,进而提高模型在不同分布数据集下的稳定性。
Nov, 2019
该研究论文开发了一种鲁棒贝叶斯建模的通用方法,能够保护数据不受离群值或其他偏差的影响,并且探讨了该方法在多个模型中的应用,包括线性回归,泊松回归,逻辑回归和概率主题模型。
Oct, 2015
本文提出了一种多工作回归模型的校准方法,可用于估计单个或多个参数,当缺失概率被正确指定且假设了多个条件均值工作回归模型时,具有奥拉克尔(Oracle)性质,在缺失数据机制被错误指定时,仍可成为一致估计量,可使用共同的校准权重同时获得所有感兴趣参数的半参数效率界,并且与生物统计学、计量经济学和调查抽样中许多现有的估计方法有联系。
Oct, 2014
提出了一种新的 Decorrelated Weighting Regression (DWR) 算法,能够提高模型错误规范化和未知测试数据下的参数估计准确性和预测稳定性。
Jan, 2020
预测表现受到缺失协变量的影响,处理缺失数据的方法选择会极大地影响模型性能。研究发现,具有信息性缺失值的模型可以实现最佳的预测性能,但实际部署后缺失值产生的原因可能会发生变化,此时基于缺失的条件概率在目标数据中会有所不同。因此,如果缺失值的产生是不可忽略的,Bayes 预测器可能会因为缺失值的变化而有所改变。然而,我们的实证研究发现,在高度信息化的情况下,忽略缺失值是最有益的。
Jun, 2024
本文提出了一种机器学习模型稳健性的框架,通过人类关于因果关系的常识知识来解决模型在训练和测试过程中的不一致性问题。透过在每个训练数据中加入人类标注的潜在未测变量,将问题转化为协变量转移问题,并引入分布稳健优化目标来控制测试时偏移的最坏情况损失,实验结果表明,在具有旋转混淆的数字识别任务和分析 NYPD 警务巡逻地点混杂的任务中能获得 5-10% 和 1.5-5% 的性能提升。
Jul, 2020
提出一种方法(MAPLE),通过样本重新加权,处理机器学习模型的过度拟合问题,特别针对过度参数化的情况,从而有效提高模型的超出分布的泛化能力。
Jan, 2023
在简单的线性回归问题中,我们证明贝叶斯推断在模型平均 / 选择和贝叶斯岭回归设置中可能存在一致性问题。同时,我们利用学习率来修正这个问题,并提出了 SafeBayes 方法,从数据中学习学习率,其结果非常令人鼓舞。
Dec, 2014
本文提出一种基于概率方法的鲁棒后端优化方案,通过建立贝叶斯网络模型,利用长尾柯西分布抑制异常点的特征匹配,以及一组二元潜在变量的柯西 - 均匀混合模型同时抑制循环闭合约束中的异常点特征匹配。并在实验中证明了我们的方法在大规模室内和室外数据集上均具有良好的性能表现。
May, 2019
本文提出了自动特征重新加权 (AFR) 方法,使用加权损失重新训练模型的最后一层来减少对非目标相关的模式的依赖,并在几个视觉和自然语言分类基准测试中获得了最佳结果。
Jun, 2023