- 线性子模最大化与赌徒反馈
在带有赌博反馈的子模函数优化中,考虑使用逼近算法来最大化线性结构的子模客观函数,通过模拟算法和实证研究检验了样本效率与线性结构的关系。
- 物理知情模型与混合规划用于高效的 Dyna 风格增强学习
应用强化学习(RL)于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识,演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型,以提高样本效率,并通过该模型生成虚拟轨迹,从中学 - 等变扩散策略
最近的研究表明扩散模型是学习行为克隆中源自示范数据的多模式分布的有效方法,但该方法的缺点在于需要学习一个比学习明确策略更复杂的降噪函数。在本研究中,我们提出了等变扩散策略,这是一种利用域对称性来获得更高样本效率和泛化性能的新型扩散策略学习方 - DEAR:无需重构的强化学习中解耦环境和智能体表示
强化学习算法可以通过视觉观察学习机器人控制任务,但在视觉场景复杂且无结构时通常需要大量数据。本文探讨了代理器对其形状的认知如何提高视觉强化学习方法的样本效率,提出了一种名为 DEAR 的新方法,通过特征分离约束使用代理器的分割掩模作为监督来 - 元梯度搜索控制:提高 Dyna 风格规划效率的方法
通过引入一种在线、元梯度算法,我们改善了规划过程的效率,进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象,并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。
- 基于内在动机反馈图的强化学习在缺货库存控制中的应用
提出了一种将强化学习与反馈图和内在动机探索相结合的决策框架,以提高应用强化学习在库存控制中的样本效率。
- MEReQ:最大熵残差 Q 逆强化学习用于样本高效对齐
利用 MEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning) 方法,可以通过人类介入进行样本高效的策略对齐。
- ICML具有广义函数近似的考虑不确定性的无奖励探索
通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法,其中的关键思想是通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性,通过在 DeepMind Cont - 等变离线强化学习
通过使用有限数量的演示,本研究探讨了在离线强化学习中使用 $SO (2)$- 等变神经网络的可能性,并通过实验证明了等变性如何提高低数据情况下的离线学习算法。
- CoDreamer:基于通信的分散式世界模型
在强化学习中,样本效率是一个关键挑战。本研究引入了 CoDreamer,这是 Dreamer 算法在多智能体环境中的扩展,利用图神经网络构建了一个双层通信系统来解决部分可观测性和智能体合作等问题。我们证明了 CoDreamer 比使用 Dr - ICML改进 GFlowNets 使用蒙特卡罗树搜索
我们运用蒙特卡罗树搜索算法(MCTS)提升了生成流网络的规划能力,实验证明这种方法提高了生成流网络的训练样本效率和预先训练模型的生成真实性。
- 近似等变神经过程
通过使用已有的等变体系结构,我们在构建神经过程中使用近似等变性的方法,证明了该模型在合成和真实回归实验中的有效性。
- 想象策略:利用生成点云模型学习操作策略
我们提出了一种新颖的多任务关键帧策略网络 —— 想象策略,用于解决高精度拾取和放置任务。通过生成点云来想象所需的状态,然后使用刚性动作估计将其转化为动作,将动作推理转化为局部生成任务。我们利用任务中的拾取和放置对称性在生成过程中实现极高的样 - 利用局部性提高机器人操作中的样本效率
SGRv2 是一种通过改进视觉和动作表示来提高样本效率的模仿学习框架,其中关键的归纳偏置 - 动作局部性假设认为机器人的动作主要受目标物体及其与局部环境的交互影响。在模拟和真实环境中进行的广泛实验证明了动作局部性对提高样本效率的重要性。SG - 利用最大多样性微调解锁大型语言模型的规划能力
大型语言模型 (LLMs) 具有令人印象深刻的任务解决能力,通过提示技术或系统设计实现。然而,在规划任务方面,对它们的熟练度引发了一些关注,因为它们常常难以生成有效的计划。本文研究了精调对 LLMs 规划能力的影响。我们的发现表明,通过大规 - BabyView 数据集:婴儿和幼儿日常经历的高分辨率自我中心视频
通过首次发布迄今为止最大的发展性自我中心视频数据集,我们提供了一个开放挑战,即如何使这样的系统在与人类相同规模和分布的训练数据上实现人类水平的成功。
- FunBO:基于 FunSearch 的贝叶斯优化的发现式获取函数
该论文提出了一种基于大型语言模型的方法 FunBO,可以学习用于函数优化的新的采集函数,并在各种全局优化基准和超参数优化任务中取得竞争性性能。
- ICML有限资源下的优质多样性
如何用有限资源高效训练品质多样性算法(QD algorithms),这篇论文提出了一种名为 RefQD 的新方法,通过将神经网络分解为表示部分和决策部分,并在存档中共享表示部分,以减少资源开销。RefQD 在各种资源消耗大小的任务上进行的实 - 高效深度多智能体强化学习的表示学习
通过辅助学习目标,MAPO-LSO 在多智能体强化学习中通过学习有意义的潜在表示空间来提高样本效率,并展示出在各种多智能体强化学习任务中相比普通的多智能体强化学习模型有显著的学习性能和样本效率的改进。
- 从示范中进行情节主动强化学习:给我一个像这样的例子
提出了 EARLY (Episodic Active Learning from demonstration querY) 算法,通过在基于轨迹的特征空间中生成优化的专家演示查询,改善了学习过程中的人类教学体验和学习性能。在三个逐渐增加的导