- 强化学习中抽象和基于潜力的奖励塑形的样本效率研究
利用抽象技术在有限时间内生成 “好” 的潜力函数,分析在 Potential Based Reward Shaping 中有限时间引入的偏差,并在四个不同环境中进行评估,证明我们可以通过简单的全连接网络达到与基于 CNN 的解决方案相同的性 - ICLR基于树搜索的随机执行延迟下的策略优化
该研究介绍了随机延迟执行马尔可夫决策过程的新形式,通过在马尔可夫决策类中进行策略搜索,提高了性能,并使用 DEZ 算法优化了马尔可夫决策过程的采样效率。
- 基于模型内在动机的离策略学习与主动在线探索
通过引入预测模型和离线学习元素,结合一个实用性较高的终端价值函数,本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差,我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联,使得智能 - 利用不变性学习基于动作的表示
使用动作双模拟编码,通过扩展单步可控性以递归的不变性约束,提出能捕捉长时序元素的多步可控性度量,通过在无奖励、均匀随机数据上进行预训练,提高了在多个环境中的样本效率,并展示了动作双模拟编码所捕捉到的信息。
- 映射路径规划中具等变性的模型集与正则化
强化学习中,利用环境对称性可以提高效率、鲁棒性和性能。本文提出了一种构建等变策略和不变值函数的方法,而无需使用专门的神经网络组件,并在训练过程中添加了正则化项以增加归纳偏置。通过基于地图的路径规划案例研究,展示了等变集合和正则化对样本效率和 - ViSaRL:人眼显著性引导的视觉强化学习
用基于视觉显著性引导的强化学习(ViSaRL)来训练机器人从高维像素输入中执行复杂的控制任务,通过优化视觉表征,ViSaRL 显著提高了强化学习代理在不同任务上的成功率、样本效率和泛化能力。
- MAMBA: 一种适用于元强化学习的有效世界模型方法
基于现有先进模型和元学习方法,本文提出了一种新的基于模型的元强化学习方法,通过实验证明了我们方法在常见元强化学习基准领域上能够获得更高的回报,并且具有更好的样本利用效率(高达 15 倍),同时需要很少的超参数调整。此外,我们还在更具挑战性的 - 借宝于邻:针对多模态学习的上下文学习在缺失模态和数据稀缺情况下的应用
通过使用检索增强上下文学习来解决多模态机器学习中缺失模态和样本有限的问题,提高分类模型性能和样本效率。
- RLingua:利用大规模语言模型提高机器人操作中的强化学习样本效率
利用大型语言模型 (LLM) 的内部知识,提出一种名为 RLingua 的框架,以减少强化学习在机器人操作中的样本复杂性。
- AAAI揭示幼儿启发式奖励转换在目标导向性强化学习中的重要性
幼儿启发式奖励转变对强化学习任务中的样本效率和成功率产生显著影响,并通过交叉密度可视化技术证明转变平滑了策略损失景观,促进了 RL 模型的泛化能力。
- 自动评估的正确方法:使用合成数据进行模型评估
使用人工标注的验证数据评估机器学习模型是昂贵且耗时的,可以使用 AI 标记的合成数据进行自动评估以减少所需的人工标注数量。我们建议了一种高效且统计原则的算法,提高样本效率同时保持无偏性。这些算法在使用 GPT-4 进行实验时将有效人工标注样 - ActiveAD:面向规划的主动学习用于端到端自动驾驶
通过规划导向的主动学习方法,本研究探索了如何在自动驾驶中实现样本和标注的高效利用,实验证明该方法在性能上远超过一般的主动学习方法,并且仅使用了 30% 的 nuScenes 数据就取得了与最先进的端到端自动驾驶方法相媲美的性能,希望本研究能 - 动态评估的再审查:大型语言模型的在线调整
在线微调参数,动态评估,参数的临时变化状态,样本效率。
- 定制非平稳求解器用于扩散和流动模型的快速采样
介绍了 Bespoke Non-Stationary (BNS) 求解器,一种求解器蒸馏方法,用于提高扩散和流动模型的样本效率。
- 高效零点 V2:以有限数据掌握离散与连续控制
该论文介绍了 EfficientZero V2,它是一个用于高效样本学习的强化学习算法的通用框架,在多个领域中扩展了其性能,包括连续和离散动作以及视觉和低维度输入,在有限数据的情况下,EfficientZero V2 在各种任务中明显优于现 - 快照强化学习:利用先前轨迹提高效率
该论文提出了 Snapshot Reinforcement Learning (SnapshotRL) 框架,通过改变环境而不修改算法和模型来提高采样效率,实验证明将 S3RL 与 TD3、SAC 和 PPO 算法相结合可以显著提高 MuJ - 基于模型的方法提高强化学习效率:借助专家观察
该研究通过采用专家观察(不涉及具体专家行为信息)来改进深度强化学习模型的样本效率,并通过提出一种自动调整增强损失函数中各组成部分权重的算法,证明了该算法在多种连续控制任务中通过有效利用可用的专家观察优于其他基准模型。
- 具有动力学感知奖励的样本高效偏好强化学习
通过从代理行为的二进制反馈中学习到的动态感知奖励函数,我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数,我们实现了更快的策略学习和更好的最终策略 - 对称感知强化学习在部分可观测条件下软手腕机器人装配中的应用
这项研究使用软手腕来解决机器人装配中具有代表性且具有挑战性的插入孔位任务,其可以比刚性手腕更安全操作且容忍较低频率的控制信号。我们使用部分可观察的形式并通过展示学习和基于记忆的深度强化学习来训练一个完全基于触觉和本体感知信号行动的智能体。此 - LLM 如何引导强化学习?一种基于价值的方法
本研究探讨了如何利用大型语言模型的策略先验知识来提高强化学习算法的样本利用效率,并通过在三个交互环境中的实验验证了该方法在成功率和样本利用效率方面均超过了之前的强化学习和大型语言模型方法。