高维线性回归中的过拟合与泛化问题在转移学习中的不同表现及风险边界进行了分析和研究,并提出了基于超参数化程度的有益和有害转变偏差的分类方法。
Mar, 2024
分布变化是现代统计学习中的一个严重问题,我们研究了 Wasserstein 分布变化以及联合分布变化,分析了一些重要的统计问题,包括位置估计、线性回归和非参数密度估计。对于均值估计和线性回归的预测误差,我们找到了最小二乘风险和最不利扰动,并证明了样本均值和最小二乘估计量分别是最优的。对于其他问题,我们提供了几乎最优的估计器和精确的有限样本界限。我们还引入了几种用于边界化分布变化的最小风险的工具,如平滑技术、最不利优先级序列的推广以及 Le Cam、Fano 和 Assouad 方法的泛化。
Aug, 2023
在高维回归环境中,我们提出了一种具有新型融合正则化器的两步法,有效利用来自源任务的样本,提高对具有有限样本的目标任务的学习性能,并提供了目标模型估计误差的非渐近界限,表明所提方法对协变量转变的鲁棒性。我们进一步确定了估计器最小化优选的条件。此外,我们将该方法扩展到分布式环境,允许预训练和微调策略,仅需一轮通信,同时保持了集中式版本的估计率。数值测试验证了我们的理论,突出了该方法对协变量转变的鲁棒性。
Apr, 2024
在机器学习应用中普遍存在分布偏移现象,本文研究在模型错误规定和对抗性协变量偏移存在的情况下的分布偏移影响,提出一种新的算法,通过鲁棒优化技术避免了错误规定放大,同时获得最佳的统计指标,应用于离线和在线强化学习。
Jan, 2024
本研究开发了一个统计极小化框架以表征在回归中通过线性和单隐藏层神经网络模型进行的迁移学习的基本限制,并提取出源数据和目标数据的标记数以及适当的相似性概念作为算法所能实现的目标泛化误差的下限。我们的下限提供了迁移学习的益处和限制的新见解,并通过各种实验验证了我们的理论发现。
Jun, 2020
提出了一个基于表示学习和样本重加权的误差界,针对因果推断和无监督域自适应问题,在设计转换下减少泛化误差的算法框架,与以往方法相比具有更好的效果并具有渐近一致性。
Feb, 2018
本篇论文研究机器学习模型在不同测试分布的情况下表现不佳且过度估计它们的表现的问题,并提出一种基于领域不变性预测模型的方法来更好地估计模型在转移学习领域的性能,从而实现了领域自适应和对给定模型在分布转移情况下进行准确的目标误差估计,并可以用于模型选择、决定早期停机和错误检测。
Jul, 2020
提出了一种基于正则化的学习算法 Regularized Learning under Label shifts (RLLS),该算法能够校正源域和目标域之间标签分布的转移,通过估计带权重的源目标数据并训练分类器,并以此推导出分类器在目标域的泛化边界,提出了一种小样本区间和大转移区间下考虑权重估计的正则估计器,实验证明,相比现有方法,RLLS 能够提高分类准确率,特别是在低样本和大转移区间。
Mar, 2019
本文提出了一种 Stable Adversarial Learning(SAL)算法,该算法通过利用异构数据源构建更实用的不确定性集合,并针对与目标之间的相关性稳定性进行差异化的强鲁棒性优化,在随机梯度优化的情况下证明了可行性和提供了性能保证。该算法的实证研究在模拟和实际数据集上验证了其总体表现较好的有效性。
本论文提出了一种基于分布鲁棒优化的模型,通过设计并分析梯度下降 - 近端镜像上升算法,用一次训练获得一个对多种标签偏移都具有稳健性的单一分类器,并在 CIFAR-100 和 ImageNet 上的实验中展示出其显著的性能提高。
Oct, 2020