- 利用可行集的曲率在在线凸优化中获得快速速率
基于在线凸优化和曲率的可行集合的分析,本文提出了一种新的方法通过利用可行集合的曲率来实现快速收敛,不仅可以适用于凸损失函数,同时还能在随机、对抗性和受干扰的环境下获得良好的性能。
- 基于混合正则化的优化探索:针对偏向监控的对数遗憾与对抗鲁棒性
通过优化的探索,局部监控问题的新型逼近算法提供了在随机和对抗环境中近乎最佳的悔恨界限。
- 苏格拉底的怀疑回声:在校准的证据强化学习中拥抱不确定性
我们提出了一种新颖的统计方法,用于在无模型分布式强化学习中纳入不确定性感知,它涉及基于分位回归的深度 Q 网络。该算法称为 CEQR-DQN(Calibrated Evidential Quantile Regression in Deep - 基于价值的多目标强化学习中的价值函数干扰和贪婪动作选择
多目标强化学习算法扩展了传统的强化学习方法以解决存在多个冲突目标的问题,通过向量值奖励进行表示。我们在此论文中展示了,如果用户的效用函数将各向量值映射到相似的效用级别,这可能导致代理学到的值函数受到干扰,从而收敛到次优策略。尽管在确定贪婪动 - 突破极限:重塑强化学习中的奖励
强化学习中,选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法,适用于确定性和随机环境,并将其与现有的强化学习算法相结合。在实验中,我们研究了该算法在两个目标达成环境中的性能,并证明了其相对于标准强 - 基于价值的多目标强化学习在随机环境中的实证研究
本研究针对多目标强化学习中基于值函数的 Q-learning 算法在具有随机状态转移的环境中学习最优策略的问题进行了详细研究,考察了算法的变种以及奖励工程方法,并突出了噪声值估计问题对算法稳定性和收敛性的重要影响。
- 最佳的两个世界:随机和对抗的凸函数追踪
拟凸函数追踪(CFC)是一个在线优化问题,本文研究了 CFC 问题在随机环境和对抗环境下的性能保证,并提出了一种同时在两种情况下达到性能保证的算法。
- 随机环境下的预期流网络与两人零和游戏
生成流网络(GFlowNets)在多个结构化对象生成任务中取得成功,并扩展到包括蛋白质设计在内的随机环境,提出了预期流网络(EFlowNets)和对抗性流网络(AFlowNets)分别用于两人零和游戏,表明后者在 Connect 4 比赛中 - 面向随机驾驶环境的不确定性感知决策变换器
在本文中,我们介绍了一种适用于随机驾驶环境规划的不确定性感知决策 Transformer(UNREST),该方法通过条件互信息来估计状态的不确定性,并相应地对序列进行分割,以从真实的代理动作结果中学习而不是环境转换,实验证明了 UNREST - 通过批处理学习实现双模态环境中强化学习智能体的稳定训练
本文采用批处理更新的方式提出了一种新颖的学习方法,针对性地解决双峰随机环境下的强化学习问题,该方法对定价问题等现实应用具有显著的实用意义及工业部署潜力。
- 基于数据驱动的悔恨平衡在线模型选择策略
研究随机环境下序列决策中模型选择的效用,并利用数据驱动方法得到候选后悔保证未知的基本学习方法,通过后悔平衡实现模型选择保证。
- 解决持续任务强化学习中无界状态空间问题
本篇论文探讨了深度加强学习算法在面对状态空间无法预测,强烈依赖于重置时的困境。通过引入 Lyapunov 启发式奖励塑造方法,策略学习可以更快、更稳定地收敛到最优解
- DiSProD: 可微分的分布符号传播规划方法
该论文介绍了 DiSProD,它是一种为具有连续状态和动作空间中的概率转移的环境开发的在线规划器,该规划器建立符号图,捕获未来轨迹的分布,该分布已给定策略,并使用独立性假设和分布的近似传播。该方法在处理随机环境、搜索深度敏感性、奖励稀疏性和 - 多目标强化学习中随机环境和局部决策问题的解决
本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素,并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能,全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能, - USHER: 无偏采样的回顾经验回放
提出了一种基于重要性采样的算法来处理稀疏奖励带来的偏差问题,并在高维度随机环境中显示了其有效性。
- 不能只依赖运气:决策 Transformer 和 RvS 在随机环境中的失败
本文介绍了基于预测任务的强化学习方法在随机环境下的局限性,并提出了一种名为 ESPER 的解决方案,该方法学习轨迹聚类并以平均聚类收益进行条件约束,从而在真实环境中实现了目标收益和预期性能的强对齐。ESPER 在多项挑战性的离线 RL 任务 - 基於強化學習的探索方法綜述
本文介绍了关于(连续)强化学习中现代探索方法的调查,以及探索方法的分类。
- ICML用于规划的矢量量化模型
使用离散自编码器来处理动作在随机环境中引起的多种可能性,再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量,明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL - 在随机和对抗线性赌博机中同时实现近似实例最优性和极小化最优性
本文将开发线性试探算法来适应不同的环境,并提出一种新的损失估计方法,该算法在随机环境中实现了几乎实时最优遗憾,还在带有额外遗憾的破损环境中工作,并装备有对抗性组件,同时拥有最小化遗憾的敌对环境优势。
- 情境随机赌博问题中的模型选择
研究如何在随机环境中进行赌徒模型选择,提出一种基于元算法的方法,可以与一般类别的基本算法和不同类型的对抗性元算法一起使用,同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。