控制变量的多保真度强化学习
在科学机器学习中,我们提出了一种新的多保真度训练方法,利用可用的不同保真度和成本的数据,通过多保真度数据定义线性回归模型的未知参数的新的多保真度蒙特卡罗估计器,并提供理论分析以保证该方法的准确性和对较小训练预算的改进鲁棒性。数值结果验证了理论分析,并表明与仅具有相似成本的高保真度数据训练的标准模型相比,我们用稀缺高保真度数据和额外低保真度数据训练的多保真度学习模型具有数量级更低的模型方差,说明在稀缺数据环境下,我们的多保真度训练策略能够产生具有较低期望误差的模型。
Mar, 2024
介绍了一种基于功能正则化方法的强化学习中的高性能方案,可以相对于一个策略先验进行行为的规则化,进而获得偏差 - 方差的平衡来降低高方差的挑战,并通过自适应调整策略先验,保证稳定性和更高的学习效率
May, 2019
本文采用最新的强化学习技术,通过优化找到非可积多体量子系统中从初始状态到目标状态的短高保真度驱动协议,同时在协议时长的空间中呈现类自旋玻璃相变,并揭示了基于强化学习的 RL 方法在非平衡量子物理应用中的潜在用途。
May, 2017
我们提出并展示了一种用于训练和验证强化学习系统的组合框架,在多功能度的仿真到实际应用中,以便在物理硬件上部署可靠和适应性强的强化学习策略。通过将复杂的机器人任务分解为组成子任务,并定义它们之间的数学接口,该框架允许对相应的子任务策略进行独立训练和测试,同时可以对其组合所产生的整体行为提供保证。通过使用多功能度仿真管道验证这些子任务策略的性能,该框架不仅可以实现高效的强化学习训练,还可以根据仿真和实际之间的差异挑战对子任务及其接口进行改进。在实验案例研究中,我们将该框架应用于训练和部署一个成功驾驶 Warthog 无人地面机器人的组合式强化学习系统。
Dec, 2023
本研究介绍了一种新的训练算法叫做 Diffused Value Function (DVF),该算法学习使用扩散模型的环境 - 机器人交互动态的联合多步模型,可以高效地捕获多个控制器的状态访问度量,并在具有挑战性的机器人基准测试中展示了有希望的定量和定性结果。
Jun, 2023
该研究提出一种数据效率的强化学习算法,利用结构因果模型来进行状态动态建模,从而实现反事实推理以及避免因数据不足带来的偏见问题。该算法对于少样本数据情况下的个体级政策学习有较好效果。
Dec, 2020
提出一种新的基于概率模型的强化学习方法 VIREL,通过应用参数化的动作值函数来总结底层 MDP 系统的未来动态,使 VIREL 具有 KL 散度的寻找峰值形式、自然地从推断中学习确定性最佳策略的能力和分别优化价值函数和策略的能力。通过对 VIREL 应用变分期望最大化方法,我们表明可以将 Actor-critic 算法简化为期望最大化,其中策略改进对应 E 步骤,策略评估对应 M 步骤,最后,我们展示了来自这个家族的 Actor-critic 算法在几个领域优于基于软值函数的最新方法。
Nov, 2018
本文介绍了一种方差缩减技术 VR-MCCFR,它可以应用于任何 MCCFR 的采样变型方法。这个新公式可以从同一事件中的其他估计值启动引导,即引导基线在采样轨迹上沿估计传递收益,而估计值保持不偏。实验结果表明,VR-MCCFR 可以提供一个数量级的加速,同时经验方差降低三个数量级。方差的降低使得 CFR + 可以和采样一起使用,加速两个数量级。
Sep, 2018
本研究提出了一种强化学习算法,通过调整两个学习参数的比例,同一算法可以学习解决无限时间视角的均值场游戏与控制问题,并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题,并使用线性二次问题得到显式解作为算法结果的基准。
Jun, 2020