- 可扩展的在线探索
探索是强化学习中的一个主要挑战,该研究提出了探索目标 —— 一种能够使任何奖励函数最大化的政策优化目标,作为一个概念框架来系统研究探索。在这个框架中,引入了一个新的目标 $L_1$-Coverage,它推广了以前的探索方案并支持三个基本的愿 - 带初始热启动的偏微分方程控制的政策优化
通过增加策略优化步骤,将模型控制器与降维模型相结合,实现对混沌行为的偏差建模误差补偿,提高模型控制器性能。
- 可证明的鲁棒 DPO:将语言模型与噪声反馈对齐
通过引入在随机偏好翻转情况下进行策略优化的总体框架,我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比,可以显著降低偏好标签噪音对学习策略的影响。
- ICLR技能还是运气?通过优势函数进行回报分解
利用离线数据进行学习是实现高效强化学习的关键,本文以优势函数作为行动对应回报的因果效应为基础,将轨迹的回报分解为受智能体行动(技能)和超出智能体控制范围的部分(运气)所影响的部分,并利用此分解将直接优势估计(DAE)自然地扩展到离线策略(离 - 基于探索驱动的强化学习策略优化在 RLHF 中的理论洞察:高效数据利用
基于人类反馈的强化学习 (RLHF) 在仅依赖少量人类反馈的情况下取得了令人瞩目的实证成功。本文提出了一种基于策略优化的 RLHF 算法 (PO-RLHF),该算法不假设对奖励函数有先验知识,并通过基于轨迹的比较反馈来推断奖励函数。我们提供 - 未来预测能成为部分可观察环境中良好历史表达的有力证据
在部分可观察环境中,学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性,并证明了强化学习的性能与未来观察的预测准确性密切相关。同时,该方法可以阻止高方差嘈杂信号对表征学习的影响,显著改善整体端到端方法。通 - 自适应原始对偶方法的安全强化学习
在这篇论文中,我们提出了自适应原始 - 对偶(APD)方法用于安全强化学习(SRL),并分析和评估了该算法在实际环境中的性能。结果表明,与常数学习率情况相比,实际 APD 算法在训练过程中具有更好的性能和更稳定的训练结果。
- 延迟随机环境中的控制:基于模型的强化学习方法
本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法,该方法采用了随机规划而非以前使用的确定性规划方法,从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略,并将其与文献中的两种先前方法进行 - 线性对齐:无需调整和反馈的人类偏好对齐的闭式解法
基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习,而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法,通过一次推断步骤将语言模型与人类偏好对齐,消除了对数据注释和模型训练的依赖。线性对齐通过一种新 - 基于轨迹的稀疏奖励策略优化
利用离线演示轨迹的强化学习方法,通过最大均值差异(MMD)计算轨迹距离并将策略优化视为一种受距离限制的优化问题,从离线演示学习到的形状奖励函数实现了与离线演示相匹配的状态 - 动作访问边缘分布,从而在稀疏奖励环境下提供了更快且更高效的在线强 - 基于模型的强化学习在自适应光学控制中的实验研究
通过实施和适应一种名为 AO 的 RL 方法(PO4AO),我们在 ESO 总部的 GHOST 测试台上展示了这种方法在实验室环境中的强大性能,该实验允许与推理并行进行训练,对于天空操作至关重要。
- 弹韧性约束强化学习
我们提出了一种新的约束强化学习方法,通过在学习目标中引入放松成本来适应放松约束,以实现对策略和约束规格的联合搜索,然后通过两种具有非渐进收敛保证的鲁棒约束策略搜索算法来平衡约束满足和奖励最大化,最后通过计算实验来证明我们方法的优点和有效性。
- 通过离线策略评估的保守探索策略优化
为了在现实世界的系统中部署一种强化学习代理,必须对学习过程提供保证。我们研究了保守型探索问题,在此问题中,学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利 - 通过 Q-Score 匹配从奖励中学习扩散模型策略
通过利用扩散模型的评分结构与 Q 函数的动作梯度之间的链接结构,我们提出了一种新的学习扩散模型策略的方法,称为 Q-score 匹配,并对该方法提供了理论上的证明。我们在模拟环境中进行实验,以证明我们提出的方法的有效性,并与流行的基准进行比 - RLHF 中的策略优化:偏离偏好数据的影响
通过对直接优化偏好和基于奖励模型的策略优化的比较,该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能,并且 RMB-PO + 方法表现最佳。
- 无先验掩码:简化深度强化学习中的冗余动作
通过分析理论并提出一个新的冗余动作过滤机制,我们展示了一种用于策略优化的简单而高效的方法,它通过估算状态分布之间的距离构建相似度因子,并结合修改后的逆模型来避免在高维状态空间中进行大量计算。我们在高维、像素输入和随机问题上进行了广泛实验,证 - 基于模型的风险意识策略优化的认知变异性
基于模型的强化学习中,我们考虑量化预期累积奖励的不确定性问题。我们提出了一个新的不确定性 Bellman 方程,其收敛到真实后验价值方差并在表格型探索问题中降低遗憾。我们鉴定了超越表格问题的应用挑战,并提出了相应的近似方法。基于这个近似,我 - 联邦自然策略梯度方法用于多任务强化学习
多任务情境下的联邦强化学习,通过策略优化实现分布式决策,并建立了全局收敛性保证。
- 通过奖励函数优化进行行为对齐
通过使用双层目标的新框架,将辅助奖励与环境的主要奖励相结合,我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式,以解决现有方法的主要缺点,即使给出不对齐或指定不良的辅助奖励函数,也能始终导致高性能解决方案。
- 迭代学习具有状态距离信息的多样化策略
基于多样性的强化学习在问题优化与策略发现方面面临基本挑战。该研究通过引入状态空间距离信息和优化计算框架,开发了一种新的多样性驱动的强化学习算法 SIPO,实现了对多个领域的多样性和人类可解释的策略的持续发现。