- 离线强化学习中有限数据处理的领域知识整合
通过领域知识约束和自适应改进初步的领域知识,该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习(RL)算法,并通过对标准离散环境数据集的实证评估,显示相比于现有离线 RL 算法,性能至少提升了 27%。
- 基于轨迹的迭代强化学习框架用于自动投标
在线广告中,通过使用增强学习的自动竞价算法,部署多个自动竞价代理进行数据收集与训练,提出了一种迭代的离线增强学习框架,通过轨迹的探索和利用方法进行数据采集与利用,以解决传统离线增强学习算法的有效探索和开发性能瓶颈,并结合安全探索和适应性行动 - DiffStitch:基于扩散的轨迹拼接技术提升离线强化学习
离线强化学习中,学到的策略性能高度依赖于离线数据集的质量。然而,在许多情况下,离线数据集只包含非常有限的最优轨迹,这对离线强化学习算法提出了挑战,因为智能体必须能够转移到高奖励区域。为了解决这个问题,我们引入了一种基于扩散的轨迹拼接(Dif - 关于样本高效的离线强化学习:数据多样性,后验采样和更多
我们提出了一个新颖的基于后验采样的离线 RL 算法,该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能,并且具有频率主义的亚优性界限。
- 自动驾驶望远镜:离线强化学习的天文观测任务自主调度
用于天文学调度优化问题的强化学习算法,在模拟数据集上经过多次改进和调整后,显示出很高的性能,对于特定的天文学挑战,这是第一次对离线强化学习算法进行比较和评估的研究。
- 基于混合数据集的无线网络优化的离线强化学习
本研究采用离线强化学习算法解决无线电资源管理问题,通过评估使用行为策略收集的异构数据集来提出一种新的离线强化学习解决方案,表明在适当混合数据集的情况下,离线强化学习能够产生接近最优的强化学习策略。
- 通过层次强化学习重新思考决策 Transformer
决策 Transformer 是一种创新算法,利用了转换器架构在强化学习中的最新进展;我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法,并展示了 DT 作为该框架的一个特例,同时讨论了潜在的失败选择;受到这些观察的启发,我们 - 建立分布鲁棒学习和离线强化学习的桥梁:缓解分布偏移和部分数据覆盖的方法
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
- 超越均匀采样:利用不平衡数据集的离线强化学习
离线策略学习旨在利用现有的轨迹数据集来学习决策策略,而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块,从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明,在 72 个不平衡数 - 保守世界模型
通览全文后,我们发现:利用前后表示法(FB)及保守策略,即使在小数据集上训练,零样本强化学习在各个数据集、领域和任务中可以比纯 FB 性能高达 150%,且保守策略算法表现不亚于任务特定算法。
- 强化自训练(ReST)的语言建模
ReST 是一种使用离线 RL 算法通过为 LLM 生成样本来改善其策略的简单算法,可以有效地提高机器翻译的质量和效率。
- AlphaStar Unplugged:大规模离线强化学习
这篇论文在 StarCraft II 这个具有挑战性的强化学习环境中,利用大量的离线数据集和机器学习方法,建立了一个新的基准 AlphaStar Unplugged,提出了离线强化学习的前沿技术,并且取得了 90% 的胜率。
- 离线强化学习中的自动折衷适应
本文提出一种改进的离线强化学习算法 - AutoLION,该算法可以在运行时自适应地调整策略行为,利用自动驾驶寻找正确的权衡参数来平衡保守性和性能优化。
- 通过融合启发式方法来改善离线强化学习
提出启发式混合(HUBL)改进基于值引导的广泛类离线强化学习算法的简单性能技术,通过将部分引导的值替换为启发式的蒙特卡罗回报,实现了算法中使用的 Bellman 算子的修改。 我们通过调整奖励和折扣因子来重新标记离线数据集来实现此想法, - 离线强化学习数据集中的后门隐藏
本文提出了一种新的后门攻击方法 Baffle,通过实验发现当前所有离线强化学习算法都无法免疫这种攻击,并且我们插入的后门难以被广泛采用的防御方法检测出来,因此需要更有效的保护机制。
- 稳健离线深度强化学习中克服模型偏差
本研究提出了一种基于动力学模型的离线策略搜索算法 MOOSE,使用动力学模型评估策略的性能,得出了比当下主流的无模型、离线强化学习算法 BRAC、BEAR 和 BCQ 更稳健的结果。