- ICML具有连续潜在动力的丰富观测强化学习
針對連續環境中高維感知輸入的強化學習算法的樣本效率和可靠性問題,本研究提出了一種新的理論框架 RichCLD(基於豐富觀測的連續潛在動力學強化學習),其中代理基於高維觀測進行控制,但環境卻由低維潛在狀態和 Lipschitz 連續動力學所控 - 多任务强化学习中的高效短视探索
通过在多个任务上进行训练,可以证明多任务强化学习(MTRL)中基于共享结构的一般性策略共享算法具有适用于样本高效率的 myopic 探索设计,这是首次理论证明了 MTRL 的 “探索优势”。而多样性任务集的验证实验证明任务选择与自动课程学习 - PREDILECT: 在强化学习中利用零样本语言推理揭示偏好
基于偏好的强化学习已成为机器人学习中的一个新领域,其中人类通过表达对不同状态 - 动作序列的偏好,对机器人行为起到关键作用。为了应对机器人实际政策制定的要求,我们通过扩展每个查询收集的信息,包括偏好和可选的文本提示,解决了样本效率挑战。为了 - 多批次强化学习中的样本效率:对维度相关适应性的需求
探索强化学习中样本效率和适应性之间的关系,通过使用学习框架来研究问题的策略评估和最佳策略识别中,使用 n 个查询的样本有效算法所需的批次数 K 存在最低限制为 Ω(log log d),并且仅有适应性并不能保证样本有效性。
- 多观测视角下的样本高效学习 POMDPs
该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究,并提出了一种增强的反馈模型,可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类:多观察揭示 POMDP 和可区分 POMDP,同时这两个子 - ICML在线强化学习中一般覆盖条件在有效函数逼近中的可证明优势
本研究聚焦于在线强化学习中,使用一定的覆盖条件能够确保样本高效,通过挖掘更多的覆盖条件,研究了其在提高样本效率方面的潜力和效用,进一步证明使用覆盖条件能够实现在线强化学习的高效性,包括 $L^p$ 集中性方差实现、密度比实现、偏差 / 休息 - 利用离线数据加速程序生成环境下的强化学习
研究了强化学习中采用离线轨迹进行数据增强的方法,发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略,预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。
- ICLR使用目标条件策略模拟基于图的规划
该论文提出了一种基于图形规划算法和自我模仿的方法,通过提取子目标策略来优化目标目标策略,从而提高在长期任务中实现指定目标的样本效率。
- 通过变分稀疏门控学习鲁棒动力学
本文研究了如何在稀疏交互的情形下,通过学习从感官输入中生成世界模型的方法,提高在具有许多物体的环境中的运动样本效率。我们提出了一种称为变分稀疏门控的潜在动力学模型和简化架构,并在具有大量移动对象和部分可观测性的 BringBackShape - 延迟几何折扣:强化学习的另一种准则
通过推广折扣问题的公式,使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题,并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。
- METRO: 面向大规模自编码语言模型的高效去噪预训练,采用模型生成信号
本文提出了一种高效的预训练大规模自动编码语言模型的方法,使用辅助模型生成的训练信号进行预训练策略,使用 METRO 配方结合最佳建模技术,加速、稳定并增强预训练语言模型的效果,产生了 54 亿个参数的 METRO-LM 模型,其在 GLUE - 具可实现性和单策略集中性的离线强化学习
本文研究除去 Bellman-completeness 和 all-policy concentrability 强假设是否可以在两个因素上弱化假设,结果证明基于 MDPs 的原始 - 对偶算法可以实现针对单策略可集中性的多项式样本复杂度, - TRAIL: 近乎最优的次优数据模仿学习
本研究提出了一种利用离线数据集学习隐含动作空间和转换模型的训练目标,通过此目标实现提高下游模仿学习的样本效率,该目标可用于廉价的次优或非任务特异性轨迹数据集。TRAIL 算法是一种能够增加样本效率的模型,其能通过学习基于能量的转换模型,对动 - IJCAI利用剧集记忆解决连续控制问题
本研究使用 Actor-Critic 架构,通过修改 critic 的目标函数,将记忆机制引入连续控制问题中,使用基于经验的记忆缓冲区优先级排列方式,验证了在广泛的行动空间下,使用记忆机制能够提高连续控制中代理的性能,并且相较于最先进的自由 - 对比傅里叶特征的证明表示学习与模仿
本文研究使用离线数据集,学习低维状态表示以加速模仿学习的采样效率,使用对比学习方法实现表示学习目标,并在 Atari 游戏中进行了实验。
- ICML通过乐观自举和反向归纳进行原则性探索
本文提出了一种适用于深强化学习的探索方法,通过乐观自举和向后归纳 (OB2I) 构建了一个通用的 UCB-bonus 用于估计状态动作对的认知不确定性,与线性设置中的 LSVI-UCB 有理论联系并在 MNIST 迷宫和 Atari 游戏套 - ICML利用随机编码器最大化状态熵以进行高效探索
本文介绍了一种基于状态熵作为内在奖励的随机编码器(Random Encoders for Efficient Exploration,RE3)的探索方法,旨在解决高维观察空间中的有效探索问题,并在 DeepMind Control Suit - ICMLLTL2Action:将 LTL 指令泛化到多任务 RL 中
本论文研究了在多任务环境下,通过使用线性时间逻辑(LTL),结合深度强化学习(RL)实现对代理人进行指令跟随的教学。为了提高效率,论文提出了一种与特定环境无关的 LTL 预训练方案,并在离散及连续领域实验中展示了该方法的优越性。
- 基于表征空间的新颖性搜索,用于高效探索
通过将环境的低维编码与基于模型和无模型目标相结合的学习相结合,提出了一种有效探索的新方法,利用了基于低维表示空间最近邻之间的距离来衡量新颖性的固有奖励,进而在表示空间中利用这些固有奖励在奖励稀疏的困难探索任务中进行样本高效的探索。
- 基于模型的随机价值梯度在连续强化学习中的应用
本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法,发现在高维控制任务中,基于模型的策略评估方法比传统方法更有效。