- VDSC: 基于价值差异和状态计数的增强探索时机
提出基于价值差异和状态计数的内部状态驱动探索新方法 VDSC,实验证明其在 Atari 套件上的优越性。
- 以探索为基础的数据收集方法进行公平分类的部分反馈
通过使用可用数据并提供一系列探索策略,该方法训练了一个分类器,它可以收集有关以前被忽视的子群体的结果数据,以改善学习保证并编码特定于上下文的组公平性属性。在真实世界数据集上的评估表明,该方法始终提高了收集到的结果数据的质量,并改善了所有群体 - 学习通过选项框架整合强化学习的探索策略
提出了基于选项评论家模型的统一强化学习探索框架,该框架学习集成一组多样的探索策略,使得智能体能够自适应地选择最有效的探索策略,以实现给定任务的相关探索与利用平衡。通过在 MiniGrid 和 Atari 环境中进行各种实验验证了所提探索框架 - 细致估计,大胆探索
基于双 Q 函数框架,引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题,通过使用贪婪 Q 值和保守 Q 值的加权和来更新 Q 值,将行动探索与 Q 值更新相结合,并在 Mujoco 基准测试中展示了优越的性能。
- AutoNeRF: 用自主代理训练隐式场景表示
该论文介绍了 AutoNeRF,一种使用自主实体代理收集数据以训练 NeRF 的方法,研究比较了不同的探索策略,经验证明可以使用主动收集的数据来训练 NeRF,并且可以用于下游机器人任务,以及模块化训练探索模型显著优于经典基线。
- 基于模型的价值函数不确定性
在模型基强化学习中,我们考虑了如何量化累积奖励的不确定性,并提出了一种新的不确定 Bellman 方程来弥补现有工作的不足,该方法能够更准确地告诉我们此前探索的不足。实验表明,这种更精确的不确定性估计方法能够提高样本效率。
- 毫米波系统中基于纯探索单峰臂铳的最佳波束辨识
本文开发了一种名为 Unimodal Bandit for Best Beam (UB3) 的算法,通过纯探索策略在有限时间内利用波束接收信号强度的单峰结构,找到最佳波束,证明了其误差指数不依赖于波束数量,并通过大量仿真证明了 UB3 的优 - 连续控制中的深度内在驱动探索
本文研究如何将内在动机与深度强化学习相结合,以用于连续系统的有向探索行为。我们基于动物激励系统的现有理论,提出了一种创新的、可扩展的有向探索策略,它受到价值函数误差的最大化的影响。大量实证研究表明,我们的框架可以扩展到更大、更多样化的状态空 - 应对生涯强化学习中非稳态性的反应性探索
该论文探讨了在终身学习的情境下如何跟踪和适应持续的领域转变,为此提出了反应式探索方法,并基于实验证明,策略梯度方法是适合于终身学习的一种学习方法,能更快地适应分布变化。
- TANDEM: 使用触觉传感器学习联合探索和决策制定
该研究提出一种名为 TANDEM 的框架,通过协同训练的探索和判断模块,实现机器人通过触觉信息进行目标识别任务,具有更高的准确性和更强的鲁棒性。
- 如何协作训练异质强化学习代理,使其适应稀疏回报的环境?
本研究结合内在动机和传递学习的思想,探讨了基于行动者 - 评论家模型共享参数和结合内在动机信息的多智能体协同学习算法,在探索和学习效率上有一定提升,并强调正确调节外部和内部奖励间的重要性,以避免不良学习行为。
- 离线指标能否预测推荐系统的在线性能?
通过在六个受控的模拟环境中对 11 个推荐系统进行评估,研究离线度量是否能够预测在线性能,在观察到离线度量在一定范围内与在线性能相关的同时,还发现离线性能的提高会导致在线性能的收益递减,同时观察到推荐系统的排名取决于初始离线数据量以及探索策 - MAME:模型无关元探索
本论文提出了一种在元强化学习中有效实现探索策略的方法,即通过建立一个单独的探索策略,通过自监督和监督学习目标来实现适应,相较于现有的方法可以更加灵活和高效地训练策略,并在实验中表现出更卓越的性能。
- ICLR基于贝叶斯优化的子目标探索
本文提出了一种基于代价感知的贝叶斯优化方法,旨在通过动态子目标的一系列探索策略来克服稀疏奖励、高昂交互和噪声等挑战,实现在未知分布环境下的政策学习。在实验评估中,平均而言,所提出的算法在问题领域上的表现优于 MAML 元学习算法 19%,超 - NIPS基于惊奇的内在动机深度强化学习
本文研究了强化学习中探索在复杂环境下的挑战,提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务,利用 MDP 转换概率建模,以最大化代理经历惊奇感为目标。实验表明,本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功,并 - BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索
该研究提出了一种新算法,通过 Thompson 采样和 Bayes-by-Backprop 神经网络,可以显著提高深度 Q 学习代理在对话系统中的探索效率,并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。
- 利用深度预测模型在强化学习中激励探索
本文提出一种使用神经网络参数化的模型学习探索奖励的方法,可以用于具有复杂、高维状态空间的任务,同时在 Atari 游戏领域中获得了最一致的改进。