- 模拟引理的最优紧密度界限
我们提出了一种关于模型误差的值预测误差的边界,包括常数因子。这是强化学习中的基础结果 “模拟引理” 的直接改进。我们通过谨慎考虑这个数量本身,而不是作为值误差的子组件,推导出一种与转换函数误差相关的次线性边界,并在相关的分层抽象子领域证明了 - 使用神经网络检测摊余贝叶斯推断中的模型错误:一项扩展研究
在模拟基础推理中,我们研究了模拟程序不准确表示真实系统行为对推理结果的影响,并提出了一种能够可靠检测模型错误规范性的新度量标准。实验证明,这个度量标准对于警示用户可疑输出、当预测结果不可靠时发出警告,并引导模型设计者寻找更好的模拟器具有很大 - 广义拉普拉斯近似
Bayesian 深度学习的不一致性引起了越来越多的关注,温度调节或广义后验分布通常提供了解决这个问题的直接有效方法。本研究引入了一个统一的理论框架,将 Bayesian 不一致性归因于模型规范不当和先验不足,提出了广义 Laplace 近 - 通过数据驱动校准解决模拟推断中的错误规范
通过引入鲁棒后验估计 (ROPE),克服了模型错误配置,ROPE 在真实世界校准集的基础上提供了具有可控平衡的校准不确定性和信息丰富的推断,通过解决真实观测和模拟观测之间的最优运输问题确保了模拟基于推理的可靠性。
- 线性马尔可夫决策过程中的常数遗憾解决
我们研究了强化学习中的恒定遗憾保证问题,提出了一种算法 Cert-LSVI-UCB,用于在线性马尔科夫决策过程中近似转移核和奖励函数,利用认证估计器进行集中分析,证明了其对于无限次运行具有恒定的遗憾边界,不依赖先验分布假设。
- 应用于强化学习的纠正误指的回归中减轻协变量变化
在机器学习应用中普遍存在分布偏移现象,本文研究在模型错误规定和对抗性协变量偏移存在的情况下的分布偏移影响,提出一种新的算法,通过鲁棒优化技术避免了错误规定放大,同时获得最佳的统计指标,应用于离线和在线强化学习。
- 使用局部极大似然估计的条件类别噪声的假设检验
在监督学习中,评估标签质量成为一个尚未解决的研究问题。本文提出了一种替代路径,使用非参数逻辑回归模型构建基于污染标签噪声的假设检验,相比传统的参数方法具有更强的适应性和较少的模型设定问题。
- 利用装袋后验进行可重复的参数推断
在模型错配方面,贝叶斯后验经常无法正确量化真实参数或伪真参数的不确定性,并导致模型在独立数据集上产生矛盾的后验分布。为了定义在模型错配中可复现的不确定性量化准则,我们考虑从独立数据集构建的两个置信区间的重叠概率,并建立了适用于任何有效置信区 - 纠正物理命名神经网络中的模型规范错误
给定一些稀疏和 / 或嘈杂的数据,本文提出了一种纠正 PINNs 中模型错误的通用方法,使用其他深度神经网络 (DNNs) 建模模型偏差和观测数据之间的差异,从而扩展了 PINNs 在未知物理过程的复杂系统中发现规律方程的应用。
- ICLR如果没有欠拟合,就没有冷后验效应
贝叶斯深度学习中的冷后验效应表明,在温度 $ T <1 $ 的后验中,预测效果可能比贝叶斯后验 ($ T = 1 $) 要好。本研究更深入地阐述了冷后验效应,揭示只有当贝叶斯后验出现欠拟合情况时,才会出现冷后验效应。事实上,理论上证明了如果 - 模型错误下的条件独立性检验
在现代统计学和机器学习中,条件独立性检验是基础性且具有挑战性的。许多现代的条件独立性检验方法依赖于强大的监督学习方法,在学习回归函数或贝叶斯预测器时作为一种中间步骤。然而,当监督学习方法由于模型错误估计导致失败时,这些方法的行为了解还很有限 - 基于模型错误假定的仿真推断鲁棒统计学习
提出了一种通过惩罚那些增加数据和模型之间不匹配度的统计量的正则化损失函数作为一般性方法来处理模型错误规范问题,从而在 SBI 过程中获取稳健的推断结果。
- WWW在去偏推荐中利用少量无偏评级平衡未观察到的混杂因素
本文提出了一种理论上保证的模型无关均衡方法,该方法可以针对现有的去偏差方法进行应用,以抵抗未观测到的混淆和模型错误,并通过交替校正学习偏差数据的模型参数,以自适应学习平衡系数,充分利用无偏数据。在实际应用中,该方法证明了其有效性。
- 从最优性到鲁棒性:基于狄利克雷采样策略的随机赌博机算法
本文研究通过基于经验指数的成对比较和数据相关探索奖励的重新采样来计算理论上不完整的手臂分布的 Dirichlet Sampling 算法,表明这些策略的不同变体在手臂分布有界时实现了可证明的最优遗憾保证,并且在半边界分布具有轻微的分位条件时 - 误设的高斯过程贝叶斯优化
本文提出了两种基于高斯过程(GP)方法的算法:一种乐观的 EC-GP-UCB 算法,另一种是一种消除型算法 Phased GP Uncertainty Sampling。本文给出了算法的上界,其依赖于时间长度和核心参数,证明了我们的算法在不 - 上下文回馈中的误差适应
在这篇论文中,我们介绍了一种新的 Oracle-efficient 算法,适用于无限行动设置下的线性情境强化学习问题,该算法实现了最优的拟合程度依赖性回归(square loss regression)的后悔上限,使得它能够在未知的模型错误 - 核和神经赌博中的纯探索
本文研究了一种新的纯探索选择策略,通过自适应地将每个手臂的特征表示嵌入到低维空间中并仔细处理引起的模型错误,成果展示了该方法在核空间或神经表示中实现的有效维度。实验证明了该方法的有效性。
- ICLR多源不精确弱监督模型中的依赖结构错误
通过数据编程(DP)的实验,揭示了标记数据的昂贵成本。 DP 使用的标记函数(LF)定位于领域知识,可以带有复杂的依赖性,用于标记一部分数据,并在 LF 随后训练标签模型。标签模型根据 LF 生成对未知分类标签的估计。本文研究了标记模型结构 - 基于模型的强化学习控制策略优化中的隐式微分技术
本文提出了一种端到端的方法,采用隐式微分直接优化期望回报,以求克服最大似然方法在模型不匹配或表示能力有限的情况下出现的缺点。具体来说,我们将一个满足模型引导的贝尔曼最优算符的值函数视为模型参数的隐函数,并展示了如何对该函数进行微分。理论和实 - 线性函数逼近的谨慎乐观策略优化与探索
本文提出了一种改进版的 COPOE 算法,克服 Policy optimization 方法在采样复杂度方面的问题,同时保留它对模型不当规格化的鲁棒性。