最大似然估计是处理良好指定的协变量转移的唯一所需方法

Nov, 2023

最大似然估计是处理良好指定的协变量转移的唯一所需方法

Maximum Likelihood Estimation is All You Need for Well-Specified Covariate Shift

Jiawei Ge, Shange Tang, Jianqing Fan, Cong Ma, Chi Jin

TL;DR现代机器学习系统的一个关键挑战是实现越界通用化（OOD generalization）- 广义到与源数据分布不同的目标数据。本文证明了在针对协变量转移的规范设置下，令人惊讶的是，纯使用源数据（无需任何修改）的经典最大似然估计（MLE）达到了最小最大优化。我们的结果适用于非常丰富的参数模型，并不需要对密度比率施加任何有界条件。我们通过线性回归、逻辑回归和相位恢复的三个具体示例来说明我们框架的广泛适用性。此外，本文通过证明在误规设定下，MLE 不再是最优选择，而在某些情景下，最大加权似然估计（MWLE）成为最小最大优化。

Abstract

A key challenge of modern machine learning systems is to achieve Out-of-Distribution (OOD) generalization -- generalizing to target data whose distribution differs from that of source data. Despite its significant importance, the fundamental question of ``what are the most effective al

machine learning out-of-distribution generalization covariate shift maximum likelihood estimation parametric models

发现论文，激发创造

高维逻辑回归中最大似然估计存在的相变

本文通过建立高维逻辑回归模型中最大似然估计 MLE 存在性的分界曲线，证明 MLE 的存在性具有 “相变” 的特性，当问题具有足够高的维数时 MLE 几乎不可能存在，曲线参数由回归系数未知序列的整体大小确定。

Apr, 2018

自主驱动的重要性权重理论分析 —— 基于协变量偏移广义化的研究

本文证明了独立驱动的重要性权重算法的有效性，并将其解释为特征选择过程，指定了最小稳定变量集，在理想条件下，该算法可以识别此集合中的变量，并提供了渐近性质分析，结果在多个合成实验中得到证明。

Nov, 2021

分布偏移下近似最优线性回归

探索在源域具有充足标签数据但目标域仅有稀缺标签数据的情况下，开发了具有最小值线性风险的估计量的转移学习算法，包括协变量转移和模型转移，同时也考虑了数据来自线性或一般非线性模型的情况，证明了线性最小值估计器与各种源／目标分布的非线性估计器相比的绝对误差是一个常量。

Jun, 2021

使用退出一个样本最大对数似然目标稳定训练概率模型

基于数据驱动方法的概率建模用于电力系统运行和规划过程，需要充足的大型数据集。本文提出一种自适应的核密度估计模型，通过分配可学习的权重给核心实现了该模型的性能改进，同时使用修正的期望最大化算法加快优化速度，并通过和高斯混合模型的比较，表明所提出的模型具有良好的性能。

Oct, 2023

对数线性模型中的最大似然估计

研究了在条件泊松抽样方案下对数线性模型中的最大似然估计，推导了模型参数的最大似然估计器存在的必要和充分条件，探究了自然和均值参数在不存在 MLE 情况下的可估性。此外，提出了拓展最大似然估计算法，并利用对数线性模型的几何性质，为对数线性模型分析的现有算法进行改进和修正。

Apr, 2011

高维逻辑回归现代极大似然理论

本研究证明在逻辑回归模型中，当样本量和自变量个数的比例变大时，MLE 的偏差和方差均远大于经典预测所得，常用的 LRT 也未能满足卡方分布，因此现有的软件包所得出的推论是不可靠的。

Mar, 2018

超出寻常：针对协变量转移的光谱自适应回归

设计深度神经网络分类器，能够在与可用训练数据不同的分布上具有强健性，是机器学习研究中的一个活跃领域。然而，回归的世纪问题 - 即建模连续目标的类似问题 - 仍然相对未经探索。为了解决这个问题，我们回归到第一原理，并分析了最小二乘回归的封闭形式解对协变量转移的敏感性。我们以源数据和目标数据的特征谱分解来表征 OLS 模型的超出分布风险。然后，我们利用这一洞察力，提出了一种方法，用于适应预训练神经回归模型的最后一层权重，以在来源于不同分布的输入数据上表现更好。我们展示了这种轻量级的谱适应过程如何改善合成数据集和真实数据集的超出分布性能。

Dec, 2023

应用于强化学习的纠正误指的回归中减轻协变量变化

在机器学习应用中普遍存在分布偏移现象，本文研究在模型错误规定和对抗性协变量偏移存在的情况下的分布偏移影响，提出一种新的算法，通过鲁棒优化技术避免了错误规定放大，同时获得最佳的统计指标，应用于离线和在线强化学习。

Jan, 2024

协变量偏移适应性的双加权方法

该研究提出了最小化风险分类的方法来处理资料控制变量变化的问题，同时也发展了有效的技术，取得了更好的分类性能。

May, 2023

信息几何泛化协变量移位自适应

本文研究了机器学习中的一个重要研究主题：协变量转移。我们表明这个领域的方法都可以归为信息几何的范畴，并且我们提出的方法可以更高效地进行参数搜索和更好地适应数据，结果比现有方法好。

Apr, 2023