- 大规模推荐系统中多任务融合的离策略增强学习算法定制化
为了解决多任务融合中的严重问题,提出一种定制的离策略强化学习算法,该算法整合了离策略强化学习模型和在线探索策略,大幅度提高了性能,并采用渐进训练模式进一步提升了模型的性能。
- 通过离线数据设计实验,对增强学习中的策略进行微调
利用离线数据集设计无反馈的探索策略,改进强化学习的政策。研究通过理论分析和度量方法,以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。
- 使用 RL 和基于记忆片段的行为先验进行规划
本文提出了一种规划方法,使用行为先验知识帮助增强学习中的有效探索和学习,表明探索策略形式的行为先验可以帮助代理更快地学习。
- BYOL-Explore: 基于自举预测的探索
BYOL-Explore 通过优化单一预测损失,在潜在空间中学习世界表示、世界动态和探索策略,实现在视觉复杂环境下的好奇心驱动探索。此方法可有效解决部分可观察连续行动的具有挑战性的难度探索基准和 Atari 游戏等任务。
- 有趣的对象,好奇的智能体:学习与任务无关的探索
本研究提出了一种新的任务无关探索方法,将学习到的策略转移到不同的环境下,通过评估基线策略和探索组件,提高在多个测试环境下的一致性探索。
- AAAI基于对比学习的元强化学习有效上下文方法
提出一种名为 CCM 的元强化学习框架,通过对比不同任务来训练一个精简有效的上下文编码器,并训练一个单独的探索策略和理论推导一个新的信息增益目标,从而在几步内收集信息丰富的轨迹。实验证明,CCM 通过分别解决之前提到的问题,优于现有算法。
- ECCV视觉语言导航的主动信息收集
该研究提出了一种基于人类导航行为的智能视觉语言导航策略,通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题,实验证明该方法能显著提高导航性能。
- ICML利用进步好奇心进行主动世界模型学习
本文研究如何设计这样的好奇心驱动的主动世界模型学习系统,提出一种由可扩展和有效的学习进步基础好奇心信号驱动的 AWML 系统,并表明相对于基线控制器,该控制器的性能得到显着提高。
- AAAI基于非参状态熵估计的策略梯度无任务探索
本文通过提出新的策略搜索算法 MEPOL(Maximum Entropy POLicy optimization),并在实验中展示了它在高维、连续控制领域中学习最大熵策略的能力,为研究 agent 在无奖励环境中探索最优策略的内在目标提供了 - 主动视觉学习中的语义好奇心
本文研究了物体检测的体现式交互学习任务,提出基于自监督学习方法的探索策略,使用语义好奇心奖励轨迹样本,通过该方法训练的探索策略具有普适性,能够帮助训练出优于其他方法的物体检测器。
- 探索增强的 POLITEX
该论文从强化学习、价值函数逼近和策略迭代等方面出发,提出了一种改进的 POLITEX 算法,采用单个充分探索策略替代之前对所有策略均需要探索环境的假设,以实现在存在探索难题的情况下控制代价的目标。
- 低切换成本可证明高效的 Q 学习
本研究旨在探究具有有限自适应性的 PAC-MDP 算法,我们提出了一种以本地切换成本为度量标准的 Q-Learning with UCB2 exploration 算法,可在 H 步奖励 MDP 中实现次线性遗憾,适用于医学领域等现实应用场 - 带有 UCB 探索的 Q-learning 对于无限时域 MDP 具有样本效率
本文提出一种基于 UCB 探索策略的 Q 学习算法并将其应用于无限时间序列的马尔可夫决策问题,实验结果表明算法的探索样本复杂度的上限为 O(SA/ε²(1-𝛾)⁷),此外该算法还可提高之前深度 Q 学习的表现。
- 元策略梯度学习探索
该研究论文提出了一种基于 `meta-policy gradient` 算法的自适应学习方法,可用于解决现有基于添加噪声的探索方法仅能探索接近 actor 策略的局部区域的问题,从而实现独立于 actor 策略的全局探索,而这对各种强化学习