关键词curriculum reinforcement learning
搜索结果 - 5
- 通过逆序课程强化学习训练大规模语言模型
本研究提出了一种名为 R^3 的学习推理的逆向课程强化学习方法,该方法仅借助结果监督实现大型语言模型的过程监督的益处。该方法通过学习正确演示,使用逐步课程逐渐滑动推理起始状态,以便在所有阶段更容易地进行模型探索,从而允许结果监督提供逐步信号 - CQM:基于量化世界模型的课程强化学习
我们提出了一种新的课程方法,通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战,并改善课程的可伸缩性。我们通过向量量化变分自动编码器 (VQ-VAE) 将连续观测离散化,并通过图形恢复离散观测 - 关于最优传输在课程强化学习中的益处
通过将课程设置为任务分布之间的插值,将生成课程作为约束优化传输问题来提高课程强化学习(CRL)方法的性能,从而在具有不同特点的各种任务中取得高性能。
- 利用渐进领域自适应的最优传输进行课程强化学习
该研究将课程机器学习作为优化输运问题来量化和生成任务分布之间的移动,并提出了一种称为 GRADIENT 的算法来处理连续和离散背景下的非参数分布。 实验结果表明,该算法在学习效率和渐进性能方面均优于基线。
- 自适应多智能体强化学习
本文介绍了自适应多智能体强化学习 (Self-paced MARL),它可以根据任务的难度自动优化智能体数量,实验结果显示该方法在智能体数量对任务难度有足够影响时可以提高任务表现。