- 元梯度搜索控制:提高 Dyna 风格规划效率的方法
通过引入一种在线、元梯度算法,我们改善了规划过程的效率,进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象,并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。
- 基于内在动机反馈图的强化学习在缺货库存控制中的应用
提出了一种将强化学习与反馈图和内在动机探索相结合的决策框架,以提高应用强化学习在库存控制中的样本效率。
- MEReQ:最大熵残差 Q 逆强化学习用于样本高效对齐
利用 MEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning) 方法,可以通过人类介入进行样本高效的策略对齐。
- ICML具有广义函数近似的考虑不确定性的无奖励探索
通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法,其中的关键思想是通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性,通过在 DeepMind Cont - 等变离线强化学习
通过使用有限数量的演示,本研究探讨了在离线强化学习中使用 $SO (2)$- 等变神经网络的可能性,并通过实验证明了等变性如何提高低数据情况下的离线学习算法。
- CoDreamer:基于通信的分散式世界模型
在强化学习中,样本效率是一个关键挑战。本研究引入了 CoDreamer,这是 Dreamer 算法在多智能体环境中的扩展,利用图神经网络构建了一个双层通信系统来解决部分可观测性和智能体合作等问题。我们证明了 CoDreamer 比使用 Dr - ICML改进 GFlowNets 使用蒙特卡罗树搜索
我们运用蒙特卡罗树搜索算法(MCTS)提升了生成流网络的规划能力,实验证明这种方法提高了生成流网络的训练样本效率和预先训练模型的生成真实性。
- 近似等变神经过程
通过使用已有的等变体系结构,我们在构建神经过程中使用近似等变性的方法,证明了该模型在合成和真实回归实验中的有效性。
- 想象策略:利用生成点云模型学习操作策略
我们提出了一种新颖的多任务关键帧策略网络 —— 想象策略,用于解决高精度拾取和放置任务。通过生成点云来想象所需的状态,然后使用刚性动作估计将其转化为动作,将动作推理转化为局部生成任务。我们利用任务中的拾取和放置对称性在生成过程中实现极高的样 - 利用局部性提高机器人操作中的样本效率
SGRv2 是一种通过改进视觉和动作表示来提高样本效率的模仿学习框架,其中关键的归纳偏置 - 动作局部性假设认为机器人的动作主要受目标物体及其与局部环境的交互影响。在模拟和真实环境中进行的广泛实验证明了动作局部性对提高样本效率的重要性。SG - 利用最大多样性微调解锁大型语言模型的规划能力
大型语言模型 (LLMs) 具有令人印象深刻的任务解决能力,通过提示技术或系统设计实现。然而,在规划任务方面,对它们的熟练度引发了一些关注,因为它们常常难以生成有效的计划。本文研究了精调对 LLMs 规划能力的影响。我们的发现表明,通过大规 - BabyView 数据集:婴儿和幼儿日常经历的高分辨率自我中心视频
通过首次发布迄今为止最大的发展性自我中心视频数据集,我们提供了一个开放挑战,即如何使这样的系统在与人类相同规模和分布的训练数据上实现人类水平的成功。
- FunBO:基于 FunSearch 的贝叶斯优化的发现式获取函数
该论文提出了一种基于大型语言模型的方法 FunBO,可以学习用于函数优化的新的采集函数,并在各种全局优化基准和超参数优化任务中取得竞争性性能。
- ICML有限资源下的优质多样性
如何用有限资源高效训练品质多样性算法(QD algorithms),这篇论文提出了一种名为 RefQD 的新方法,通过将神经网络分解为表示部分和决策部分,并在存档中共享表示部分,以减少资源开销。RefQD 在各种资源消耗大小的任务上进行的实 - 高效深度多智能体强化学习的表示学习
通过辅助学习目标,MAPO-LSO 在多智能体强化学习中通过学习有意义的潜在表示空间来提高样本效率,并展示出在各种多智能体强化学习任务中相比普通的多智能体强化学习模型有显著的学习性能和样本效率的改进。
- 从示范中进行情节主动强化学习:给我一个像这样的例子
提出了 EARLY (Episodic Active Learning from demonstration querY) 算法,通过在基于轨迹的特征空间中生成优化的专家演示查询,改善了学习过程中的人类教学体验和学习性能。在三个逐渐增加的导 - 大型语言模型提升样本效率的推荐系统
大型语言模型在自然语言处理领域取得了显著进展,在各种任务中展现出与人类语言相似的能力,为推荐系统中的应用提供了新的机会。本文具体研究了 LLM 增强推荐系统的样本效率,即模型在有限数量的训练数据下达到卓越性能的能力,并提出了 Laser 框 - ICML在令牌世界中学习玩 Atari 游戏
基于模型的增强学习代理利用变换器已经显示出更好的样本效率,因为它们能够对扩展的上下文进行建模,从而得到更准确的世界模型。然而,对于复杂的推理和规划任务,这些方法主要依赖于连续表示,这使得对实际世界的离散属性,例如不可插值的不相交对象类的建模 - 通过即时状态条件的动作抽象实现高效蒙特卡罗树搜索
基于组合结构的行为抽象可以提高蒙特卡洛树搜索在具有复杂动作空间问题上的效率。本研究通过学习一个潜在的动态模型和辅助网络,构建了一种状态条件行为抽象方法,用于减少搜索空间并提高采样效率,并在实验中展示了其比传统 MuZero 方法更好的采样效 - 学习搜索空间分割的多目标神经架构搜索
使用 LaMOO 优化算法在神经架构搜索任务中取得了超过 200% 的样本效率提升,并在 CIFAR10 数据集上以仅 600 个搜索样本实现了 97.36% 的准确率和仅 1.62M 参数,以及在 ImageNet 数据集上仅使用 522