- 基于平均不确定性的鲁棒回归
我们提出了一种新的鲁棒回归的表述,通过整合不确定性集的所有实现并采用平均方法来获得普通最小二乘回归问题的最优解。我们证明了这个表述意外地恢复了岭回归,并在现有回归问题的鲁棒优化和均方误差方法之间建立了缺失的联系。我们首先证明了四种不确定性集 - 分布稳健的迁移学习
我们的论文介绍了一种新颖的转移学习方法,即分布鲁棒优化(TransDRO),它破除了严格的相似性约束,并通过在不确定性集合内优化最具对抗性的损失来优化目标数据的预测性能。通过数值研究和多机构电子健康记录数据的分析,我们验证了 TransDR - 通过频率正规化解决非矩形奖励鲁棒 MDPs
研究强健的马尔可夫决策过程中的关键问题,如不确定性集合、计算可行性以及策略访问频率正则化方法,并引入一种收敛的策略梯度方法进行分析。
- 强化学习中生成模型分布稳健性的研究
研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距,采用分布鲁棒马尔可夫决策过程的框架,在规定的不确定性集合范围内学习最优性能策略,对于不同的不确定性集合,分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性,结果表明分布鲁棒马尔可 - 分布鲁棒优化有效地解决离线强化学习问题
本文利用不确定性集来直接建模转移内核的不确定性,并采用分布稳健优化方法,通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。
- 安全学习动态系统
本文针对未知动态系统的学习问题,提出了一种安全学习动态系统的数学定义,并通过线性规划和半定向编程等方法,发展了能够在保证安全的情况下学习线性和非线性动态系统的算法。
- 实用鲁棒强化学习:邻域不确定性集和双代理算法
介绍了一种新的不确定性集合并基于此提出了一种名为 ARQ-Learning 的鲁棒强化学习方法,同时还提出一种能高效解决 ARQ-Learning 在大规模或连续状态空间下的问题的技术,最终将其应用于各种存在模型不确定性的强化学习应用中。
- ICML领域泛化的适度分布式探索
本文介绍了一种适用于领域泛化时的分布一致性问题的新方法 MODE,该方法利用分布鲁棒优化探索与训练数据相同语义因素的不确定子集来增加预测的置信度。实验结果表明,MODE 方法与当前最先进技术基线方法具有相当的性能水平。
- 改进的分布式鲁棒强化学习样本复杂度界限
本文提出了一种分布式抗干扰强化学习算法,即 Robust Phased Value Learning 算法,该算法针对四种不同的差距度量指标的不确定性集合进行求解,得到的结果在样本复杂度方面比现有结果具有更好的一致性。
- AAAI鲁棒平均奖励马尔科夫决策过程
本篇论文研究鲁棒平均回报 MDP 问题,旨在找到一种策略,使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题,证明了当折扣因子趋近于 1 时,鲁棒折扣价值函数收敛于鲁棒平均回报,并设计了鲁棒动态规 - 非凸目标分布鲁棒分布式优化
本文提出了一个名为 ASPIRE 的算法来解决分布式分布鲁棒优化问题(DDRO),该算法涉及分布式环境、不确定性集和优化收敛性。
- 带模型不确定性的在线强化学习
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数,并证明了 TDC 算法渐近收敛到一 - AAAI具有稳定对抗训练的分布鲁棒学习
本文提出了一种新的稳定对抗学习(SAL)算法,该算法利用异质数据源构建了更实用的不确定性集,并根据协变量与目标的稳定性进行差异化的鲁棒性优化,理论上表明我们的方法适用于随机梯度下降优化,并为我们的方法提供了性能保证。在模拟和实际数据集上的实 - ICLR分布鲁棒优化中第二玩家建模
本文提出了一种基于神经生成模型的分布鲁棒优化 (DRO) 方法,通过对不确定集合中的分布进行建模,使得模型在不确定的分布中表现优异,并提出一种 KL 约束内部最大化目标的松弛优化方式,通过大规模生成模型的梯度优化来解决相应的实现和优化挑战,