- Value Memory Graph: 离线强化学习的基于图结构的世界模型
该研究旨在解决在复杂环境中直接应用强化学习方法以学习策略时遇到的困难,提出了一种基于图的马尔可夫决策过程的简单离线世界模型,称为 Value Memory Graph,可有效地解决回报稀疏和长时间跨度等问题。
- 基于隐式语言 Q 学习的自然语言生成离线强化学习
本文提出了一种离线强化学习方法 ILQL,以结合传统强化学习算法的灵活的优化框架和有监督学习的现有数据利用能力及其简明稳定性的特点,以指导语言模型的生成来最大化效用,并在自然语言生成环境中有效地优化高方差奖励函数。
- 离线强化学习用于 1 型糖尿病患者血糖更安全的控制
本文评估了离线强化学习方法,用于开发临床有效的药量策略,通过对 UVA/Padova 血糖动力学模拟器内的九个虚拟患者的血糖控制进行了研究,发现离线强化学习可以显著提高健康血糖范围内的时间,而不增加低血糖事件。
- 关于实用的强化学习:可证明的鲁棒性、可扩展性和统计效率
本文旨在研究多种强化学习方法如鲁棒性 RL,分布式 RL 和离线 RL,并为每个方法提供算法以及未来的相关研究方向。
- 只需要有监督学习:从模仿学习到反转强化学习元学习
本文介绍 Upside Down Reinforcement Learning (UDRL) 算法,它使用监督学习实现了强化学习的目标,并可以适用于多种强化学习环境,具有非常广泛的适用性。
- 线下增强学习单次剪枝
本研究探讨了如何在离线强化学习中应用神经网络修剪技术,通过离线修剪技术,可以在保证性能的情况下减少神经网络的大小,提高训练效率。实验结果证明在网络被修剪了 95% 的情况下,算法表现依然很好。
- 离线强化学习通过监督学习的必要条件是什么?
离线强化学习中的监督学习方法及其必要算法组件已被证明可以达到与基于 TD 学习或序列建模的复杂方法相当的高效性;如何选择模型容量和条件信息(例如目标或奖励)可以对性能产生至关重要的影响,这提供了对 RvS 学习从业者的指南。
- 通过专家指导的策略优化实现安全驾驶
研究者提出了一种基于专家支持的强化学习模式,其中引入了一个守护者来保障学习的过程安全,在保证足够探索性的同时,在危险时进行干预并演示正确行为以避免潜在的事故。使用约束优化技术来避免故意表现出危险行为欺骗专家,并使用离线强化学习技术从专家生成 - ICML离线基于偏好的学徒学习
该研究提出了一种利用离线数据进行奖励函数学习和策略优化的方法,该方法不需要真实物理试验或准确的模拟器,并能够学习完成离线数据未曾显示的新任务。
- 策略微调:连接高样本效率离线与在线强化学习
本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习,提出了一个新的策略微调问题 —— 在线 RL 中,学习者在某种意义下可以接近最优策略,并在马尔科夫决策过程 (MDP) 中解决了这个问题。我们还提出了一个新的混合离线 / 在 - 通过学习模型进行计划的在线和离线强化学习
本文提出了一种称为 Reanalyse 的算法,能够在固定数据集和与环境交互的情况下,使用模型为基础的策略和价值改进算子来计算改进训练目标,并在多个数据预算范围内实现高效学习。此外,结合 MuZero 算法,提出了 MuZero Unplu - 表示很重要:为序贯决策进行离线预训练
本文研究了如何将离线数据转换为强化学习模型的有效训练,通过使用无监督学习目标进行预训练的方法,本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案,并通过实验证明了其有效性。
- EMaQ:基于期望最大化 Q 学习算子的简便高效离线与在线强化学习
研究了一种基于 Expected-Max Q-Learning 的离线强化学习算法 EMaQ,通过引入新的备份操作符,获得了 EMaQ 的简化版本,该算法通过约束策略保持在行为策略的支持范围内,优于传统算法,其重要贡献包括提出离线 RL 问 - ICML离线强化学习的乐观视角
该研究使用 DQN 重放数据集研究了离线强化学习,提出了随机集合混合(REM)算法以促进泛化,得到比经过完全训练的 DQN 代理更好的结果。这表明,针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。
- NIPS使用策略梯度的端到端离线目标导向型对话策略学习
本文提出了一种离线强化学习方法,可从未标注的语料库中学习,既可以在话语级别上进行优化又可以在对话级别上进行优化,解决了现有方法对话级别考虑不足的问题,并使用了一种新的奖励函数和在线 / 离线策略梯度来学习无需在线用户交互或显式状态空间定义的