- 强化学习的广义控制论方法:理论与算法
我们提出了一个控制论强化学习方法,用于直接学习最优策略,并在这个方法的一个特定实例基础上建立了理论性质,并导出了一个算法。我们的实证结果证明了我们方法的显著优势。
- 关于连接型 MDP 中价值迭代的收敛性
该论文证明,具有唯一最优策略和符合遍历性条件的转移矩阵的 MDP 可以保证各种版本的值迭代算法以超过折扣因子 γ 的几何速度收敛,适用于折扣和平均奖励标准。
- 多智能体深度网络下的多样化 Q - 向量强化学习
本论文扩展了之前的研究,提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络(DQN)算法,并在双机械臂合作举起锅的环境中展示了这种方法的有效性。
- 平衡短期和长期回报的政策学习
提出了一种新的框架,用于学习有效平衡长期和短期回报的最优策略,通过推导估计器的一致性、渐近正态性和半参数效率界限,揭示了短期结果如若关联,将有助于改善长期回报的估计器,基于所提出的估计器,发展了一种基于原则的策略学习方法,并推导出与所学策略 - 具有持续改进的智能体下的算法决策
该研究探讨了在人类战略行为下的算法决策问题,其中决策者通过算法为人类代理制定决策,而后者在了解算法信息的情况下可以通过战略性努力逐渐改善以得到有利的决策。通过构建动态模型,本文分析了持久改进的特性,并基于此构建了 Stackelberg 博 - 基于语义感知的多个马尔可夫源在约束下的远程估计
该研究利用平均成本约束马尔可夫决策过程理论和 Lagrangian 动态规划,探索了在有损且受速率限制的通道上进行多个马尔可夫源的远程估计的语义感知通信;通过使用结构优化结果和开发新的策略搜索算法,可以最小化长期状态依赖成本和估计误差;为了 - 切换损失减少批处理强化学习成本
我们提出使用对数损失函数训练拟合 Q - 迭代(FQI-LOG)进行批量强化学习。我们证明了使用 FQI-LOG 学习接近最优策略所需要的样本数量与最优策略的累积成本成比例,而在问题中,如果行为最优则可以达到目标且不会产生成本,所以最优策略 - ICML线性混合随机最短路径学习的几乎极小最优遗憾
我们提出了一种基于扩展值迭代和细粒度方差感知置信集的新算法,用于解决具有线性混合转移内核的随机最短路径问题,其在减少限制性假设的同时实现了接近极小极大的算法性能。
- 通过估计演示者的专业知识进行逆强化学习
使用不完美和异构演示在模仿学习中存在相当大的挑战,本文介绍了一种名为 IRLEED 的新框架,通过估计演示者的专业水准,克服了现有逆强化学习算法中对不完善演示的缺陷,并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线 - 强化学习中基于人类反馈的免费密集奖励
从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展,通过使用注意力权重重新分配奖励以高亮最重要的标记,它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。
- 失明训练 RL 智能体具有稳健性
通过引入神经网络架构和一种新颖的 n 步损失函数,我们的实现能够经受比训练数据更长的基于位置的视觉障碍,从而展现出对暂时性视盲的鲁棒性。
- 具有全局收敛保证的内点约束强化学习
在无限时间、约束的马尔科夫决策过程中,通过零阶内点方法实现约束满足,以最大化预期累积奖励,确保策略在学习过程中的可行性,并具有样本复杂度 O (ε^(-6))
- 基于区间的平均奖励 MDP 的最优样本复杂度
我们研究了一个基于生成模型的平均回报马尔科夫决策过程(MDP)中学习一个 ε- 最优策略的样本复杂度,建立了复杂度界限 Ω(SA (H/ε^2))。我们的结果在参数 S、A、H 和 ε 上是极小极大最优的(最多有对数系数),进一步改进了现有 - 多样性应对不确定性:学习多样化行为以实现高效适应和迁移
基于转移学习的强化学习智能体在发现给定任务的所有有用解决方案方面至关重要,以应对任务或转移动力学的变化。我们提出了一种简单的方法来发现给定任务的所有可能解决方案,以获得在转移设置中表现良好并能够快速适应任务或转移动力学变化的智能体。我们的方 - SplitEE:深度神经网络中的分割计算早期退出
将早期退出和拆分计算相结合,开发了一种在线无监督学习算法 SplitEE,通过在资源受限设备中选择性计算和外部计算,实现了大幅降低成本(>50%)并略微降低准确性(<2%)的效果。
- 朝向最优头对头自主赛车的课程加强学习
头对头自主赛车的最优策略研究中,我们提出了一个基于课程学习的框架来逐步过渡到更复杂的真实环境,以教授强化学习代理一个更接近最优策略的方法,并提出了基于控制屏障函数的安全强化学习算法,既能有效保证代理的安全性又不会牺牲策略的最优性。
- 基于好奇心驱动的强化学习的低层次飞行控制
提出了一种基于好奇心驱动的算法,通过生成适当的马达速度来控制自主学习,使四旋翼可以通过障碍物并将航向朝向目标位置,实现了最优策略的学习和最大化奖励的能力。
- 线性约束下的纯探索赌博机问题
本文提出了两种渐近最优的算法,基于 Track-and-Stop 方法和博弈论方法,用于寻找多臂赌博机环境中具有一定置信度的最优策略,特别考虑了带有线性约束的情况,并探讨了约束难度对问题的影响。
- 最后迭代一致收敛的政策梯度原始 - 对偶算法用于约束 MDPs
本文介绍了利用 Lagrangian 方法将约束马尔可夫决策过程转化为有约束鞍点问题的优化方法,提出了两种单时间尺度的基于原始对偶算法的策略算法,可以使策略迭代收敛到一个最优受限策略。其中一个采用了一种正则化策略梯度算法,另一个采用了一种乐 - 公平且健壮的异质性处理效应评估用于政策学习
本研究提出了一种简单且通用的非参数估计框架,用于在公平性约束下估计异质性处理效应,该方法在标准正则条件下展现出双重鲁棒性质,通过评估方法,我们确定了公平和最大福利之间的权衡,并用实际案例展示了我们的方法。