残差 Q - 学习：无需价值的在线和离线策略定制

Jun, 2023

残差 Q - 学习：无需价值的在线和离线策略定制

Residual Q-Learning: Offline and Online Policy Customization without Value

Chenran Li, Chen Tang, Haruki Nishimura, Jean Mercat, Masayoshi Tomizuka...

TL;DR本文提出了一种名为 policy customization 的新问题设置，旨在训练一种具有先前策略特征的新策略，同时满足来自下游任务的一些额外要求。针对此问题，我们提出了一种新的框架 Residual Q-learning，可实现离线和在线政策定制，在各种环境中有效地完成任务。

Abstract

imitation learning (IL) is a widely used framework for learning imitative behavior from demonstrations. It is especially appealing for solving complex real-world tasks where handcrafting reward function is difficult, or when the goal is to mimic human expert behavior. However, the lear

imitation learning policy customization residual q-learning markov decision process downstream tasks

发现论文，激发创造

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

反向软 Q 学习用于离线模仿与次优示范

离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法，通过添加正则化项来对齐学习得到的回报函数，从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。

Feb, 2024

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

基于隐式语言 Q 学习的自然语言生成离线强化学习

本文提出了一种离线强化学习方法 ILQL，以结合传统强化学习算法的灵活的优化框架和有监督学习的现有数据利用能力及其简明稳定性的特点，以指导语言模型的生成来最大化效用，并在自然语言生成环境中有效地优化高方差奖励函数。

Jun, 2022

增强模仿学习策略的在线适应性

我们提出通过在线调整来弥补模仿学习中的失败，我们的方法将预训练策略的动作建议与专家记录的相关经验相结合，通过适应的行为更好地模仿专家策略，实验表明适应的智能体表现比纯模仿学习的对应体更好，特别是在基础策略灾难性失败时，适应的智能体仍然能够实现合理的性能。

Jun, 2024

鉴别器指导的基于模型的离线模仿学习

该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架，该框架采用协作对抗学习策略，能够显著提高在小数据集下的性能和鲁棒性。

Jul, 2022

一种面向离线强化学习的策略引导仿真方法

该研究提出了一种 Policy-guided Offline RL 算法，该算法在训练时将想法分解为指导策略和执行策略，并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能，并可以通过改变指导策略来轻松适应新的任务。

Oct, 2022

无模型模仿学习与策略优化

在模仿学习中，我们使用基于样本的方法开发了一种基于策略梯度的算法，即通过学习专家的样本轨迹，找到至少与专家策略一样好的参数化随机策略；该算法可以应用于高维度环境，并保证收敛到局部最小值。

May, 2016

奖励条件下的策略

本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化，探讨了基于此原理进行的策略搜索的方法，并在标准基准测试中与多种强化学习方法进行了比较。

Dec, 2019