本文提出了一种能处理一大类 RL 任务约束的算法方案,这些约束需要某些向量测量(如行动使用)的期望值位于凸集中,可以捕获以前研究的约束(如安全和接近专家),也可以实现新类别的约束(如多样性)。
Jun, 2019
本研究针对具有连续状态和动作空间的非线性系统考虑强化学习问题,提出了一种基于两层神经网络逼近最优 Q - 函数的序列学习算法,通过凸优化确保每个序列的权重得到最优化,针对稳定的非线性系统,证明了该算法的收敛性,并且训练得到的神经网络参数收敛到最优参数,两者之间的距离随着正则化参数的减小和时间跨度的增加变得任意小。
Feb, 2024
该研究论文旨在通过对强化学习,凸优化和无偏学习方法进行研究,提出了一种新方法,即对偶 RL 方法,可以用于从离线偏置数据中进行无偏学习。
Feb, 2023
强化学习中,选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法,适用于确定性和随机环境,并将其与现有的强化学习算法相结合。在实验中,我们研究了该算法在两个目标达成环境中的性能,并证明了其相对于标准强化学习算法的优势。
本文研究在马尔可夫决策过程中用凸函数表达目标的问题,使用 Fenchel 对偶将其重新表达为一个涉及策略和成本(负奖励)的 min-max 博弈,并提出一个元算法以统一现有文献中的各种算法。
Jun, 2021
本研究探讨了安全强化学习问题与非线性函数逼近的关系,将策略优化作为同时考虑目标与限制的非凸问题,通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题,证明了对这些问题求解,其解会收敛于原问题的稳定点;进一步将该算法应用于优化控制和多智能体安全强化学习问题,扩展了理论研究的范围。
Oct, 2019
研究了在 Markov 决策问题中,代理人通过在线凸规划算法设计非固定策略,以最大化全局凹奖励函数和矢量结果的均值,以解决多目标优化和 Markov 环境下的受限优化问题。
May, 2019
我们提出了一种新的约束强化学习方法,通过在学习目标中引入放松成本来适应放松约束,以实现对策略和约束规格的联合搜索,然后通过两种具有非渐进收敛保证的鲁棒约束策略搜索算法来平衡约束满足和奖励最大化,最后通过计算实验来证明我们方法的优点和有效性。
Dec, 2023
在强化学习问题中引入概念的受限探索与最优保持,在满足某些约束时保持学习的最优性,通过引入监督器控制行为,建立了一个反馈控制结构来建模无约束学习过程的动态,为知道确定性环境的强化学习问题建立了必要条件和充分条件。
Apr, 2023
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022