- 一个在线代理能够高效学习均场博弈
使用在线样本,无需先验知识的状态 - 动作空间、奖励函数或转移动态,通过值函数 (Q) 更新策略,同时评估均场状态 (M),以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。
- 显式利普希茨值估计增强策略对扰动的稳健性
在机器人控制任务中,强化学习(RL)在模拟中训练的策略在部署到物理硬件上时常常出现性能下降的问题,本文研究了通过利普希茨正则化来改善近似值函数的梯度条件,从而提高训练后的鲁棒性。通过将利普希茨正则化与快速梯度符号方法相结合,我们的实验结果表 - 关于 Lipschitz 连续控制问题的稳定性及其在强化学习中的应用
我们研究了模型无关的强化学习环境下 Hamilton-Jacobi-Bellman 方程的稳定性属性,特别是对于 Lipschitz 连续最优控制问题。通过在动力学和奖励函数中引入结构假设,我们进一步研究了值函数的收敛速度。此外,我们引入了 - 估计记录策略的双重稳健离线策略评估
该研究介绍了一种新的双鲁棒离策评估(OPE)估计器,用于未知的日志策略和价值函数情况下,能估计产生半参数下界的最小渐近方差。
- 强化学习和最优控制中价值函数的连续性和光滑性
价值函数在强化学习和最优控制中是衡量代理人累积未来回报的关键指标,研究相邻状态的价值相似性以及价值函数的连续性具有重要意义。本文提供并验证了价值函数连续性的上界界限,并证明了在对底层系统有弱假设的情况下,价值函数总是 H"older 连续的 - AAAI对称 Q 学习:减小在线强化学习中贝尔曼误差的偏斜度
深度强化学习中,通过使用对称 Q 学习方法,将来自零均值分布的合成噪声添加到目标值中,从而生成高斯误差分布,以改善价值函数训练中的偏斜错误分布问题,并提高现有的强化学习方法在连续控制任务中的样本效率。
- 软 Q 学习的有限时间误差分析:切换系统方法
本文旨在通过使用动态切换系统模型,针对两种 soft Q-learning 算法 (一种利用 log-sum-exp 操作符,另一种利用 Boltzmann 操作符),提出新颖的有限时间控制论分析。我们希望通过与切换系统模型建立联系,加深对 - 马尔可夫决策过程中无界每步成本的模型近似
设计控制策略时,我们考虑在只有近似模型的情况下对无限时域折扣成本马尔可夫决策过程进行控制。对于在原始模型中使用近似模型的最优策略的性能如何,在原始模型中使用的近似模型的价值函数与原始模型的最优价值函数之间的差异的加权范数提供了上界的边界。通 - 具有一般价值函数的上下文多项式罗吉特赌博机
本研究考虑了具有广义价值函数类的上下文多项式逻辑带有多臂赌博机,并在线性情况下提出了一套算法,其表现优于现有方法,具有计算效率高、无维度遗憾界限和处理敌对环境和奖励的能力等优势。
- 类阿尔法零树搜索可引导大规模语言模型的解码和训练
借鉴 AlphaZero 的树搜索框架,通过学习价值函数来引导大型语言模型(LLMs)的解码能力,并在推理和训练中进行译码指导,有效地提升推理能力、规划和强化学习任务的对齐。
- 多拷贝强化学习代理
该论文研究了一种新型的多智能体问题,其中一个智能体通过复制自身来更好或更高效地完成单一智能体任务。我们提出了一种学习算法,用于解决多重复制问题,它利用价值函数的结构有效地学习如何平衡添加额外复制的优势和成本。
- 运用扩散规划合成专业篮球运动员行为
通过 PLAYBEST 方法,结合基于历史 NBA 运动跟踪数据的生成模型和价值函数,对行动轨迹进行条件采样以及分类器引导采样,生成高效的篮球战术策略,表现优异,超过传统的规划技术,适应性和灵活性更强。
- 协作世界模型:一种在线 - 离线迁移强化学习方法
该研究提出了一种称为协作世界模型(CoWorld)的转移学习方法,在离线数据集下为视觉强化学习模型提高性能,并成功缓解了价值函数的过高估计问题。
- 通过价值近似在行为克隆中预测失败并请求帮助
该研究提出了一种利用行为克隆值近似的方法,通过学习状态值函数来预测故障,并改进了针对具有挑战性的移动操作任务的失败分类基线。
- ICLR模型集成是否必要?通过具有 Lipschitz 正则化值函数的单个模型实现基于模型的强化学习
本论文通过对 Lipschitz 连续性的解释,提供了两种实用的训练机制,通过计算敌对噪声和规范值网络的谱范数来直接规范价值函数的 Lipschitz 条件。实证结果表明,结合我们的机制,具有单个动态模型的基于模型的 RL 算法优于具有概率 - 通过在深度强化学习中从预计算中估计值函数来加速策略梯度
通过先前的计算来估计价值函数,以提高策略梯度强化学习的样本效率,并使用价值函数作为基线来减少梯度计算的方差和提高样本效率。
- AAAI基于模型的离线强化学习中的本地错误建模
我们提出了一个基于模型的离线强化学习策略性能下限,明确捕捉动力学模型误差和分布不匹配,并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择 - AAAIACE: 双向行动依赖的协作多智能体 Q-learning
此研究提出了双向依赖 Q-learning(ACE)方法,通过设计正确的网络表示,在顺序决策过程中隐式计算以解决多智能体强化学习中的非静态问题,并通过比较实践验证 ACE 超越了 Google Research Football 和 Sta - 一种低延迟自适应编码脉冲神经网络框架用于深度强化学习
通过 Adaptive Coding Spiking Framework(ACSF)结合 Deep Reinforcement Learning 和 Spiking Neural Networks,实现了低延迟和高能效,并在强化学习中使用 - 通过学习外部价值函数来消除元梯度强化学习的偏见
该论文介绍了如何解决 Meta-gradient 增强学习中的偏差问题,通过使用另一个价值函数进行外部损失估计,该方法可以显著提高性能。