基于因果提示的基于模型的离线强化学习

Jun, 2024

基于因果提示的基于模型的离线强化学习

Causal prompting model-based offline reinforcement learning

Xuehui Yu, Yi Guan, Rujia Shen, Xin Li, Chen Tang...

TL;DR基于模型的离线强化学习可以在不需要额外或不道德的探索的情况下充分利用预先收集到的数据集。然而，将基于模型的离线强化学习应用于在线系统面临挑战，主要是由于在线系统生成的数据集高度次优（充满噪声）和多样化的特点。为了解决这些问题，我们引入了适用于高度次优和资源受限的在线场景的因果激发强化学习（CPRL）框架。CPRL 的初始阶段涉及到引入隐藏参数块因果激发动态（Hip-BCPD）来建模环境动态。该方法利用不变因果激发并对齐隐藏参数以推广到新的多样化的在线用户。在随后的阶段，通过可重用技能的融合来训练单一策略以应对多个任务，从而避免了从头开始训练的需要。在具有不同噪声水平的数据集上进行的实验证明了我们所提出的方法在分布外和嘈杂环境中可以做出稳健的决策并优于现有的算法。此外，我们还分别验证了 Hip-BCPD 和技能重用策略对性能稳健性的贡献，并对 Hip-BCPD 的可视化结构和子技能的可解释性进行了进一步分析。我们发布了我们的源代码和第一个用于精确医疗决策任务的真实世界医疗数据集。

Abstract

Model-based offline Reinforcement Learning (RL) allows agents to fully utilise pre-collected datasets without requiring additional or unethical explorations. However, applying model-based offline rl to online systems presents challenges, primarily due to the highly suboptimal (noise-fi

model-based offline rl causal prompting reinforcement learning hidden-parameter block causal prompting dynamic resource-constrained online scenarios robust decision-making

发现论文，激发创造

通过强化学习学习生成对话生成的提示

本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容，并通过 multi-task learning 提高该方法的泛化能力和适应性，实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。

Jun, 2022

离线激励评估与优化

这篇论文介绍了 Prompt-OIRL，一种根源于脱机逆强化学习的方法，它旨在弥合有效提示评估和可承受性之间的差距，验证了该方法在四个 LLM 和三个算术数据集上的有效性，并释放了代码和离线数据集。

Sep, 2023

BCRLSP：一种用于序列目标推广的离线强化学习框架

该研究使用离线强化学习模型，针对真实商业环境中的预算限制进行有序定向促销，最大化用户保留率并控制现金奖励成本，在线离线实验验证表明，该方法在长期保留客户方面比基线方法表现更好、成本更低。

Jul, 2022

离散提示压缩与强化学习

本研究提出了一种基于强化学习的离散提示压缩方法 (PCRL)，通过使用计算效率高的策略网络直接编辑提示，实现对各种类型的语言模型以及解码器和编码器 - 解码器架构的灵活应用，同时减少平均令牌数量 24.6%，且保持性能不变。此外，通过多种分析，揭示了提示中令牌重要性的理解。

Aug, 2023

利用观测和干预数据的因果强化学习

本文探讨了利用 Causal Inference 理论和 Latent-based causal transition model 在 offline data 的基础上，使用 observational data 可以有效地提高 model-based RL agents 的 generalization guarantees 问题。

Jun, 2021

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

RLPrompt：使用强化学习优化离散文本提示

该论文提出了一种基于强化学习的离散提示优化方法（RLPrompt），旨在有效地生成适合不同类型的预训练语言模型使用的离散提示，并在极少量的下游数据情况下表现出优异的表现。

May, 2022

离线元强化学习的上下文变换器

本文探讨了如何通过 prompt tuning 和 Contextual Meta Transformer 算法来提高基于序列建模的离线强化学习算法的性能，并在三种不同的离线 RL 设置下进行了广泛的实验，验证了方法的高效性和普适性。

Nov, 2022

对话中隐含人类偏好的大规模脱靶批次深度强化学习

提出了一种新型的基于批处理的深度强化学习算法，可以在没有在线探索的情况下有效地从人类交互数据的固定批量中进行离线学习，并在开放域对话生成等领域取得了显著的改进。

Jun, 2019

超网络下的连续模型强化学习

通过使用任务条件超网络连续学习遇到的动态模型，HyperCRL 方法在机器人运动和操作任务中实现了连续模型基于强化学习，而不需要重新训练之前的任务，同时超越了现有的连续学习替代方法

Sep, 2020