- 强化学习的扩散谱表示
扩展现有方法以适用于更广泛的现实世界应用的关键挑战在于推理时间的计算成本,我们提出了一种利用扩散模型在表示学习视角下的灵活性的 Diff-SR 方法,该方法能够从马尔可夫决策过程(MDP)和部分可观察马尔可夫决策过程(POMDP)中提取足够 - 优化学习奖励函数的危险性:低训练误差并不能保证低后悔
通过数学证明,该论文指出学习到的奖励模型的预期测试误差越低,最差情况的后悔也越小,然而对于任意固定预期测试误差而言,存在着导致误差和后悔不匹配的现实数据分布,该问题即使在使用常见的强化学习方法中同样存在。因此,该论文的理论结果强调了开发衡量 - 逐步学习上下文环境中的迭代检索
通过强化学习的训练过程,我们引入了迭代检索的新框架,将活跃检索器赋予迭代决策的能力,并在选择上下文学习示例时在语义解析任务中表现优于之前的方法。
- 最优传输辅助的风险敏感 Q-Learning
通过将最优输运理论融入 Q-learning 框架,本文提出一种风险敏感的 Q-learning 算法来增强智能体的安全性,以期在优化策略的期望回报的同时,最小化策略的稳态分布与预先定义的风险分布之间的 Wasserstein 距离,从而减 - 自我演进的策略优化微调
本研究在大型语言模型(LLMs)对齐方面引入自我演进微调(SEFT),旨在消除对注释样本的需求,同时保持 SFT 的稳定性和效率。通过 SEFT,模型能利用大量未标志的数据进行策略优化。实验结果表明 SEFT 的有效性,并对其相对于现有对齐 - Q - 函数之差的正交估计
离线强化学习是许多具有可用观测数据但由于安全、成本和其他方面的考虑而无法在线部署新策略的设置中的重要问题。本文提出了 R-learner 的动态推广,用于估计和优化 Q 函数之间的差异,方法可以利用黑盒辅助估计器和行为策略来估计更结构化的 - 强化学习与人类反馈的自适应偏好缩放
提出了一种新的自适应偏好损失函数,基于分布均衡优化,用于解决偏好强度不确定性问题,通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明,该方法不仅提升了策略性能,还使奖励函数的选择更加贴合策略优化,简化了超参数调整过程。
- 供应链强化学习中的策略模拟加速
使用 Picard 迭代算法在单个 GPU 上对供应链优化问题进行策略仿真,实现了 400 倍的实际加速,并在其他强化学习环境中证明了实际的有效性。
- NPG 在可数状态空间平均成本强化学习中的性能
本研究考虑了在强化学习环境中状态空间任意大、甚至可数无限的政策优化方法,重点是通信网络、匹配市场和其他排队系统的控制问题。我们研究了自然策略梯度 (Natural Policy Gradient, NPG) 在有限状态空间上的流行算法。在合 - 连续时间与空间中的策略镜像下降熵退火
熵正则化在政策优化中被广泛使用,有助于优化收敛,本文通过分析连续时间政策镜像下降动态,证明了固定熵水平下的动态指数级收敛到正则化问题的最优解,并通过调整熵正则化的衰减速率得出在离散和一般动作空间中的收敛速率。
- 大语言模型的单次安全对准
将安全限制与人类偏好对齐的计算方法,通过预优化光滑凸函数,消除了原始 - 对偶策略迭代的繁琐过程,大大降低了计算负担和提高了训练稳定性。
- ADR-BC: 敌对密度加权回归行为克隆
提出 ADR-BC,通过增强密度支持的行为克隆方法,优化策略并避免多步强化学习中的累积偏差,实验证明其在多个任务上均明显优于目前 state-of-the-art 的泛化 IL 基准 CEIL,并且在 Adroit 和 Kitchen 领域 - 安全平衡:一种用于约束多目标强化学习的框架
在涉及安全关键系统的众多强化学习问题中,平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题,我们提出了一个基于原始的框架,通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法,用于优 - IJCAI无已知变化点的非稳定环境中的行为感知深度强化学习方法
我们的研究引入了行为感知检测和适应(Behavior-Aware Detection and Adaptation,BADA)创新框架,将环境变化检测与行为适应相结合。通过分析使用 Wasserstein 距离的行为之间的变化来识别环境变化 - 安全强化学习中平衡奖励与安全性优化:梯度操控视角
利用梯度操作理论解决强化学习中奖励和安全之间的冲突,通过提出一种软切换策略优化方法实现奖励和安全的平衡,进而提供一个安全强化学习框架。
- REBEL: 通过回归相对奖励实现强化学习
REBEL 是一种极简的强化学习算法,通过直接策略参数化在两个 prompt 完成之间进行相对奖励的回归,以更轻量级的实现方式解决了生成模型的策略优化问题,理论上证明了基本强化学习算法如自然策略梯度可以看作 REBEL 的变种,从而在强化学 - ACL利用策略奖励学习对语言模型进行微调
提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。
- 策略优化在正则化广义和 LQ 博弈中找到纳什均衡
研究引入相对熵正则化对 General-Sum $N$-agent games 的 Nash Equilibria 的影响,揭示了该类游戏的 NE 符合线性高斯策略。此外,本文提出了符合熵正则化充分条件的 NE 唯一性,并证明了在 Poli - 使用策略优化进行作者风格迁移
通过参数高效的迁移学习技术和策略优化方法,本研究提出了一种简单的两步调优和优化技术,用于在资源有限的情况下进行文本风格转换,并在作者转换和更大数据的本地语言风格任务中都取得了优于最先进基准模型的表现。
- 可扩展的在线探索
探索是强化学习中的一个主要挑战,该研究提出了探索目标 —— 一种能够使任何奖励函数最大化的政策优化目标,作为一个概念框架来系统研究探索。在这个框架中,引入了一个新的目标 $L_1$-Coverage,它推广了以前的探索方案并支持三个基本的愿