- 为自主网络代理开发网络 AI 健身房
本文旨在通过应用增强学习和深度增强学习(RL/DRL)来使网络网络运营(CyOps)中的自主智能体成为可能,并且通过提出的一个名为 Cyber Gym for Intelligent Learning(CyGIL)的统一训练环境,尤其是最近 - 数据或许足够:离线强化学习桥接现实交通信号控制
本文提出了一种基于循环离线数据集的数据驱动方法来解决真实交通信号控制中部署的问题。在仿真与真实环境中进行了广泛实验,结果表明,引入循环离线数据集的数据驱动方法在某些情况下可以实现令人满意的性能,COD 可以被视为用于交通信号控制问题的可靠离 - 离线强化学习中的样本内 Softmax
研究表明,在强化学习中,使用数据集中的动作来逼近 softmax 比逼近 max 更为简单,并提出基于此的在线学习算法 In-Sample Actor-Critic,该算法表现良好且适合微调。
- 长文本语言决策 Transformer 和指数倾斜在交互式文本环境中的应用
通过提出一种基于长 Transformer 语言模型和决策 Transformer 的 Long-Context Language Decision Transformers(LLDT)框架,成功应对了基于文本的游戏环境中智能体处理长序列文 - 离线基于偏好的奖励学习的基准和算法
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
- 条件生成建模是否足以支持决策制定?
本文探讨了利用条件生成模型解决顺序决策问题的可能性,并提出了一种新的 return-conditional diffusion 模型的策略模型,使得模型训练不再需要动态规划算法,成功在一些标准测试上优于现有离线强化学习算法,证明条件生成建模 - 利用离线数据进行在线强化学习
本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置,并开发了一种称为 FTPedel 的算法,用于结合脱机数据和在线 RL 以改进学习表现,结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性,突出了在线 RL - 对比价值学习:简单离线强化学习的隐式模型
本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中,在不受奖励函数限制下,学习一个隐含的、多步骤的环境动力学模型,直接估计每个动作的价值,并在复杂的连续控制基准测试中优于先前的离 - 双生成器离线强化学习
本文介绍了一种名为 DASCO 的新方法,用于解决离线强化学习 (GAN) 中存在的矛盾目标问题,该方法采用了双生成器,其中一个最大化回报,另一个捕捉不属于行为策略的数据分布的 “剩余部分”,这两者的混合物接近于行为策略,并近似支持约束,通 - MoCoDA: 基于模型的反事实数据增强
本文提出一种利用局部分解结构的动力学模型、试验数据增强等方法的强化学习算法,该算法在离线学习方面比标准算法可显著提升其在超出分布范围的机器人操作任务中的性能表现。
- 行为克隆用于离线强化学习的可靠条件化
本文介绍了一种改进版的行为克隆方法,即 ConserWeightive Behavioral Cloning,该方法包含轨迹权重和保守正则化两个核心组件,通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定,从而提高条件行为克隆的可靠性 - 线性奖励塑造的乐观好奇探索和保守利用
该研究探讨了在基于价值的深度强化学习过程中的奖励构造,并在此基础上提出了正向奖励构造可以实现保守型利用、负向奖励构造则有助于优化探索等观点,建立了一套实现快速收敛的解决方案。
- GriddlyJS: 一个强化学习的 Web 集成开发环境
通过 GriddlyJS 的 Web 集成开发环境,研究人员可以设计、评估和记录训练代理模型的性能,并利用现代网络标准实现互动代理 - 环境演示,以直接复现实验结果,并快速开发具有挑战性的环境,例如复杂的组合解谜环境,为在线与离线的强化学习 - ICML离线强化学习策略应该被训练成具有自适应性
该研究提出离线 RL 方法应该适应不确定性,提出了一种基于贝叶斯优化的自适应算法用于近似离线 RL 的最优自适应策略,并且在离线 RL 基准测试中展示了其有效性。
- 何时信任你的模拟器:动态感知的离线与在线混合增强学习
本研究提出了一个新的混合离线 - 在线强化学习范式,通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷,并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法,从而为解决实际的复杂任务提供 - 行为变换器:一石多鸟地克隆 $k$ 种模式
本文介绍了一种名为 BeT 的新技术,该技术利用多模式建模,并结合动作离散化技术和多任务操作校正,在离线强化学习和行为克隆方面表现出色。我们在各种机器人操作和自驾行为数据集上进行了实验评估,并显示出 BeT 显着改善了解决示范任务的先前最先 - 对比学习作为目标条件强化学习
本文提出了基于对比学习的强化学习算法,通过学习动作标记的轨迹对比学习来直接获得好的表示,并成功地将其应用于目标条件 RL 任务。在一系列任务中,对比 RL 方法表现更好,且不需要使用数据增强或辅助目标。
- 轨迹 - wise 奖励的可证明高效离线强化学习
本文提出了一种新颖的离线 RL 算法,PARTED,可将轨迹回报分解为逐步代理奖励,具有一定的收敛上界,该算法可以有效地处理观察到的轨迹奖励问题。
- 强化学习的大规模检索
本文探讨了一种不同于深度强化学习的方法,通过利用大规模上下文情境的数据库搜索来支持参数计算,实现直接学习以利用相关信息指导输出,并且用此方法提高了离线与在线强化学习智能体的表现
- Value Memory Graph: 离线强化学习的基于图结构的世界模型
该研究旨在解决在复杂环境中直接应用强化学习方法以学习策略时遇到的困难,提出了一种基于图的马尔可夫决策过程的简单离线世界模型,称为 Value Memory Graph,可有效地解决回报稀疏和长时间跨度等问题。