- 通过即时状态条件的动作抽象实现高效蒙特卡罗树搜索
基于组合结构的行为抽象可以提高蒙特卡洛树搜索在具有复杂动作空间问题上的效率。本研究通过学习一个潜在的动态模型和辅助网络,构建了一种状态条件行为抽象方法,用于减少搜索空间并提高采样效率,并在实验中展示了其比传统 MuZero 方法更好的采样效 - 学习搜索空间分割的多目标神经架构搜索
使用 LaMOO 优化算法在神经架构搜索任务中取得了超过 200% 的样本效率提升,并在 CIFAR10 数据集上以仅 600 个搜索样本实现了 97.36% 的准确率和仅 1.62M 参数,以及在 ImageNet 数据集上仅使用 522 - 深度强化学习的生成式人工智能:框架、分析与应用案例
使用生成式人工智能(GAI)来提高深度强化学习(DRL)算法的性能,解决样本效率低和泛化能力差的问题,通过介绍经典的 GAI 和 DRL 算法及其应用,并展示了 GAI 增强 DRL 算法的实际集成框架,提供了一个基于无人机辅助的近场 / - 通过样本操作提高安全强化学习的效率
通过样本操作提高安全强化学习的效率,动态调整采样过程以最大程度地最小化成本和最大化奖励之间的平衡,ESPO 理论上保证了收敛性、优化稳定性和改善样本复杂性界限。在 Safety-MuJoCo 和 Omnisafe 基准测试中,ESPO 在奖 - 适用于样本高效的物理世界建模的变压器和插槽编码
通过将变压器架构与槽关注范式相结合,本文提出了一种用于世界建模的神经架构,实验证明在样本效率和性能变化减少方面相比现有解决方案有所改进。
- 脱机增强型演员 - 评论者:在深度离线策略强化学习中自适应混合优化历史行为
基于强化学习的离策略算法 OBAC 通过对值进行比较,识别出性能表现优越的线下策略,并将其作为自适应约束条件,以保证更强的策略学习表现。实验结果表明,在样本效率和渐近性能方面,OBAC 超过了其他常见的无模型强化学习和先进的有模型强化学习方 - 生物神经元和深度强化学习在模拟游戏世界的样本效率上竞争
生物系统与机器学习算法在完成任务所需样本数量上有何比较?通过将体外生物神经网络与最先进的深度强化学习算法在 “乒乓球” 游戏的简化模拟中进行学习效率对比,发现即使是简单的生物培养物在真实时间课程下,也比所有深度强化学习代理在各种游戏性能特征 - 基于大型语言模型的高效强化学习搜索
通过将大型语言模型与 MEDIC 框架结合,我们的研究旨在改善强化学习的样本效率,特别针对稀疏奖励领域和随机转换等问题,以提高 PPO 和 A2C 强化学习算法的样本复杂度,并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。
- ICML一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架
这篇论文介绍了一个针对离线奖励学习的新型线性规划(LP)框架,通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数,并在保持计算可行性和样本效率的同时,提供可证明的样本效率优化保证。
- ICLR高效的多智能体强化学习规划
多智能体强化学习算法(MARL)通过采取模型化方法来提高样本效率并在多个任务中表现出可比或更好的性能。
- 智能采样:用于改进集成强化学习的自注意力和自助法
我们提出了一种新颖的方法,旨在增强集成 Q 学习的样本效率。我们的方法将多头自注意力集成到集成 Q 网络中,同时通过引导集成所吸收的状态 - 动作对来提升性能,从而改进了原始的 REDQ 和其变体 DroQ,并有效减小了 Q 函数集合的平均 - 主动偏好学习用于样本内外排序项目
学习基于有噪声的配对比较的项目顺序,在无法分配具体标签的情况下很有用,尤其是在标注者必须进行主观评估的情况下。本研究在具有上下文属性的有序项目中研究了配对偏好反馈的主动学习,提出了两种算法来贪婪地最小化排序错误,证明了这些算法相对于非上下文 - 多智能体强化学习的可证明高效信息导向采样算法
该研究设计和分析了一组基于信息导向采样(IDS)原则的新型多智能体强化学习(MARL)算法,这些算法受到信息论基础概念的启发,在两人零和马尔可夫博弈和多人一般和博弈等 MARL 环境中被证明具有高样本效率。
- 通过多令牌预测实现更好、更快的大型语言模型
我们建议通过训练语言模型来预测多个未来标记,以提高样本利用效率,并对其下游能力进行改进,特别是在多词预测作为辅助训练任务时,在代码和自然语言生成模型方面获得了显著的改善。
- 一次性图像修复
本文提出了一种高效的基于图像补丁学习的框架,仅需一个图像输入输出对进行训练,实验证明该方法适用于监督式图像去模糊和超分辨率任务,并显著提高了学习模型的样本效率、泛化能力和时间复杂度。
- ReZero: 提高基于 MCTS 算法的效率通过及时和快速的重新分析
提供了一种名为 ReZero 的通用方法来提高基于 MCTS 的算法,在显著降低搜索成本的同时保证性能,从而大幅提高训练速度和样本效率。
- 竞争与组合:学习模块化世界模型的独立机制
我们介绍了一种用于高效传输的竞争机制模型 (COMET),它是一个模块化的世界模型,通过在不同环境中重复使用独立的机制进行训练,从而能够识别和学习可转移的机制。与竞争基线相比,我们的模型能够捕捉到可识别的机制并能够在适应新环境时具有更高的样 - 高回放率赋予样本高效的多智能体强化学习
增加重播比例(或更新至数据比例)可以显著提高多智能体强化学习算法的样本效率。
- 强化学习中抽象和基于潜力的奖励塑形的样本效率研究
利用抽象技术在有限时间内生成 “好” 的潜力函数,分析在 Potential Based Reward Shaping 中有限时间引入的偏差,并在四个不同环境中进行评估,证明我们可以通过简单的全连接网络达到与基于 CNN 的解决方案相同的性 - ICLR基于树搜索的随机执行延迟下的策略优化
该研究介绍了随机延迟执行马尔可夫决策过程的新形式,通过在马尔可夫决策类中进行策略搜索,提高了性能,并使用 DEZ 算法优化了马尔可夫决策过程的采样效率。