设计深度神经网络分类器,能够在与可用训练数据不同的分布上具有强健性,是机器学习研究中的一个活跃领域。然而,回归的世纪问题 - 即建模连续目标的类似问题 - 仍然相对未经探索。为了解决这个问题,我们回归到第一原理,并分析了最小二乘回归的封闭形式解对协变量转移的敏感性。我们以源数据和目标数据的特征谱分解来表征 OLS 模型的超出分布风险。然后,我们利用这一洞察力,提出了一种方法,用于适应预训练神经回归模型的最后一层权重,以在来源于不同分布的输入数据上表现更好。我们展示了这种轻量级的谱适应过程如何改善合成数据集和真实数据集的超出分布性能。
Dec, 2023
在理想情况下,强正则化可以防止线性回归的过度拟合。然而,当预测空间中有高方差方向可以预测响应变量时,低方差方向提供了隐式的岭正则化,进一步的正岭惩罚将会起到反作用。该研究还发现,在低准则下,明确的岭正则化可能无法提供最小范数最小二乘估计器的改进。
May, 2018
本文在高维渐近极端条件下,对岭回归和正则化判别分析在密集随机效应模型中的预测风险进行了统一分析,并提供了两种方法的极限预测风险的明确和高效可计算的表达式。同时,揭示了岭回归和正则化判别分析各自的一些定性见解,本分析基于最近在随机矩阵理论领域的一些新进展。
Jul, 2015
本研究探讨了过参数化模型在插值噪声数据时的行为,分析了数据的协方差结构和高效秩的子空间是如何影响该现象的发生,并提供了正则化条件下的结果。
Sep, 2020
本文针对随机设计条件下,普通最小二乘估计量和岭回归估计量进行了同时分析,并从协变量 / 响应分布的温和假设出发,提供了关于 “样外” 预测误差的尖锐结论。同时,本文揭示了估计协方差结构错误和建模错误的影响,这两种影响在固定设计条件下并不存在。而本文的主要结果证明是基于简单的分解引理与随机向量和矩阵的浓度不等式结合。
Jun, 2011
探索在源域具有充足标签数据但目标域仅有稀缺标签数据的情况下,开发了具有最小值线性风险的估计量的转移学习算法,包括协变量转移和模型转移,同时也考虑了数据来自线性或一般非线性模型的情况,证明了线性最小值估计器与各种源/目标分布的非线性估计器相比的绝对误差是一个常量。
Jun, 2021
本文提出了一种基于条件独立的度量标准 Conditional Spurious Variation (CSV),用于控制基于测试数据及其与类标签的相关性来测量模型的一般性并结合该度量标准来通过规范化训练过程来提高模型的一般化性能,增强模型对越界数据的鲁棒性。
Jul, 2022
在机器学习应用中普遍存在分布偏移现象,本文研究在模型错误规定和对抗性协变量偏移存在的情况下的分布偏移影响,提出一种新的算法,通过鲁棒优化技术避免了错误规定放大,同时获得最佳的统计指标,应用于离线和在线强化学习。
Jan, 2024
本文提出了使用分布式鲁邦优化的思想来作为正则化技术以及对现有技术提供新的概率解释。通过选择半径,可以保证最坏情况下的预期损失提供了对测试数据的上限置信度,从而提供新的泛化界限。
Oct, 2017
采用风险外推法的鲁棒优化可以在训练域和测试域之间进行平衡,从而提高模型对于分布漂移的抵抗能力,并且可以恢复目标的因果机制,同时还能提供对于输入分布变化具有一定鲁棒性的能力。
Mar, 2020