- 优化学习奖励函数的危险性:低训练误差并不能保证低后悔
通过数学证明,该论文指出学习到的奖励模型的预期测试误差越低,最差情况的后悔也越小,然而对于任意固定预期测试误差而言,存在着导致误差和后悔不匹配的现实数据分布,该问题即使在使用常见的强化学习方法中同样存在。因此,该论文的理论结果强调了开发衡量 - 有状态约束的离线强化学习
传统离线强化学习方法主要在批量受限的环境中进行,本文通过引入一种名为 “状态约束” 的离线强化学习新框架,专注于数据集的状态分布,大大增强了学习能力并降低了先前的限制。同时,我们还引入了 StaCQ,这是一种性能良好的深度学习算法,并与我们 - 离线强化学习中的领域外适应性:通过因果规范化流进行反事实推理
通过因果推论而非策略正则化方法,本文提出了 MOOD-CRL(基于模型的线下 OOD 自适应因果强化学习)算法,旨在解决离线策略训练中的外推挑战。通过基于数据不变性、基于物理学的定性因果图和观测数据,我们开发了一种新的学习方案,以学习定量结 - 增加安全关键行驶场景,同时保持与专家轨迹的相似性
我们提出了一种轨迹增强方法,旨在通过几何变换将位于同一簇中的轨迹组合起来,与专家轨迹数据保持相似性,从而创建新的轨迹。这些增强的轨迹被加入训练数据集中,在满足指定的安全相关标准的前提下。我们的实验证明,使用这些增强轨迹来训练仿真学习模型可以 - 通过基于物理信息的结构因果模型实现鲁棒的分布偏移下的符合性预测
通过使用物理信息的结构性因果模型 (PI-SCM) 来减小上界,我们验证了 PI-SCM 在置信水平和测试领域上对交通速度预测任务和多个真实世界数据集上的流行病传播任务的覆盖鲁棒性的提升。
- 借势中介器的悲观因果强化学习与混淆线下数据
通过采用基于前门准则的中介变量来消除混淆偏差,以及采用悲观原则来解决由候选策略引起的行为分布和生成观测数据的行为策略之间的分布偏移,我们提出了一种新颖的策略学习算法 PESsimistic CAusal Learning (PESCAL), - 学习可推广基于概念的模型的辅助损失
我们通过引入概念瓶颈模型(CBMs)和合作 - 概念瓶颈模型(coop-CBM)以及概念正交损失(COL),在各种分布转移设置下的实验中,提出了一种提高神经网络透明度和性能的方法。
- 条件音频生成中的上下文提示编辑
在机器学习模型的部署过程中,分布偏移是一个主要的挑战,特别是在文本到音频生成领域。为了解决用户提示信息过于模糊导致生成音频质量下降的问题,本文提出了一个基于检索的上下文提示编辑框架,利用训练标题作为示范样本重新审视用户提示,进而增强了收集到 - 面向领域泛化的领域特定特征解缠
我们提出了一种新的基于对比的解缠方法 CDDG,通过利用解缠特征来利用被忽视的领域特定特征,从而便于提取所需的跨领域类别特征进行 DG 任务。与其他先进方法相比,对各种基准数据集进行的广泛实验表明了我们方法的优越性。此外,可视化评估证实了我 - 模型不确定性下分布安全强化学习:一种基于可微凸规划的单层方法
通过使用可微的凸规划,本文提出了一种可追踪的分布安全强化学习框架,旨在解决安全关键环境中由于分布变动而产生的不确定性问题,在保证安全约束的同时有效地找到最坏情况下的不确定性,并通过测试验证了该方法在安全保证方面的显著改进。
- 分布偏移感知的离策略区间估计:一种统一的误差量化框架
我们研究了基于无限时域马尔科夫决策过程的高置信度离策略评估,目标是仅使用预先收集的来自未知行为策略的离线数据建立目标策略值的置信区间。通过创新的统一误差分析,我们共同量化了建模边际化重要性权重的错误以及由抽样引起的统计不确定性这两个估计误差 - 脑 MRI 无监督异常检测中的偏差
非监督异常检测中的偏差和分布偏移对医学图像异常检测结果具有重要影响,特别是在阿尔茨海默病检测中,性别、种族和扫描仪变化等方面存在显著的偏差。
- 没有独立性的泛化误差:去噪、线性回归和迁移学习
本文探讨了线性模型在实际数据中的泛化能力,并提出了一种在非独立同分布数据和分布变化情况下的解决方法,得到了渐近精确的理论结果,并在实际数据验证了结果的有效性。
- ICLR低熵潜变量损害了越界性能
本研究讨论中间表示的熵和模型对分布变化的鲁棒性之间的关系,证实去除低熵比特可以显著提高模型在分布变化方面的表现,但去除高熵比特会不利于模型表现。
- 离线模型基强化学习调查
本文对离线模型强化学习的最新工作进行了文献综述,其中介绍了离线强化学习和模型强化学习的概念和最新发展,讨论了两个领域的交叉点,并提出了未来工作的可能方向。研究了现有离线模型强化学习方法中遇到的主要问题 - 分布漂移,并展示了关键相关论文及其 - 离线强化学习的置信度条件值函数
本文提出了一种新的学习价值函数的方法,即置信度条件价值函数。该方法能够在训练时对不同的保守程度进行学习,并在评估时动态地选择其中一种,以控制置信度水平。该方法可通过将现有算法的 Q 函数置信度化来实现,并能在任何期望的置信度下产生真实值的保 - 基于数据驱动的离线决策:不变表示学习
通过域适应的角度,提出了对离线数据驱动的决策制定进行建模的方法,称为不变目标模型,用于解决分布偏移问题,并实现了学习性能和分布偏移之间的自然权衡。
- DSLOB:一种用于基准测试分布转移下预测算法的合成限价订单簿数据集
使用多智能体的市场仿真器构建了一种合成的 LOB 数据集 DSLOB,用于对高频时间序列数据中的分布偏移进行对比实验,结果反映出需要增加研究人员的努力,以开发出对分布偏移具有鲁棒性的算法。
- 基于经验的优化器选择策略研究:面向非分布式环境下的广义泛化问题
研究不同类型的分布偏移下用于图像和文本分类的常用优化器的性能,发现自适应优化器表现较差,并且在分布偏移对分类准确性的影响方面呈现三种类别的行为,可以帮助实践者选择正确的优化器。
- Shifts 2.0:扩展实际分布漂移数据集
本文扩展了 Shifts 数据集,加入了两个来源于高风险工业应用的数据集,用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计,具有普遍分布转移和严格的安全要求。