人机协作中快速在线适应的线性模型引导

Apr, 2024

人机协作中快速在线适应的线性模型引导

Bootstrapping Linear Models for Fast Online Adaptation in Human-Agent Collaboration

Benjamin A Newman, Chris Paxton, Kris Kitani, Henny Admoni

TL;DR使用离线数据集初始化非线性模型，然后使用在线逻辑回归通过合作更新来适应合作伙伴的奖励函数，提高零点准确性并减少计算量。

Abstract

agents that assist people need to have well-initialized policies that can adapt quickly to align with their partners' reward functions. Initializing policies to maximize performance with unknown partners can be achieved by bootstrapping nonlinear models using imitation learning over la

agents bootstrapped logistic regression reward function alignment offline datasets simulation

发现论文，激发创造

使用离线强化学习进行自适应人机界面引导

通过离线预训练和在线微调的组合，利用强化学习算法解决噪声命令信号和稀疏奖励的挑战，并通过学习去噪用户命令信号和提供共享自主辅助的方式，使得自适应界面能够成功辅助用户完成任务。

Sep, 2023

模仿引导强化学习

利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习（IBRL），在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率，是 RLPD 方法的 6.4 倍成功率的新亮点。

Nov, 2023

离线强化学习与人类反馈的部署

提出一种基于人类监督的强化学习在线部署框架，包含两种方法：一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署，二是在监督信号到达时在线微调模型。通过实证验证，这些方法有效地应用于机器人运动控制和交通信号控制任务中。

Mar, 2023

离线强化学习中的引导式 Transformer

本文提出了一种名为 Bootstrapped Transformer 的新算法，将 bootstrapping 思想和模型自我生成更多离线数据相结合，进一步提高序列模型训练的效果，该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果，并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。

Jun, 2022

通过融合启发式方法来改善离线强化学习

提出启发式混合（HUBL）改进基于值引导的广泛类离线强化学习算法的简单性能技术，通过将部分引导的值替换为启发式的蒙特卡罗回报，实现了算法中使用的 Bellman 算子的修改。我们通过调整奖励和折扣因子来重新标记离线数据集来实现此想法，理论上证明了 HUBL 降低了离线 RL 的复杂性，从而改善了其有限样本的表现，并经验证明 HUBL 通过 27 个 D4RL 和 Meta-World 基准数据集的平均值提高了四种现有算法（ATAC，CQL，TD3+BC 和 IQL）的策略质量 9％。

Jun, 2023

假设人类有偏见，学习与人类的零射合作

本研究针对多智能体强化学习在与人合作零 - shot 学习过程中的十分关键的限制，并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法，该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估 Overcooked benchmark，HSP 方法成功获得了更高的协同收益，并被受试者评选为最有帮助的策略。

Feb, 2023

具有循环对数双线性模型的多行为序列预测

本研究提出了一种递归对数双线性模型，能够处理具有多种行为类型的历史序列，利用行为特定的转移矩阵，应用递归结构来建模长期上下文，使用位置特定的转移矩阵来建模短期上下文，并进一步扩展为具有时间特定转移矩阵的模型。在三个数据集上验证了所提出模型的有效性。

Aug, 2016

自我提升技能：借助大型语言模型指导学习解决新任务

提出了一种名为 BOSS 的方法，利用大语言模型引导技能引导启动阶段，无需奖励反馈即可实现新任务的学习，从而在新环境中零尝试执行未见过的长远任务方面优于先前的无监督技能获取方法。

Oct, 2023

离线监督正则化的方式复制人类复杂对话策略

通过离线模仿学习和状态转移信息的利用，结合正则化技巧进行有效地优化，可使模型更好地完成基于对话系统的任务。

May, 2023

基于模型的离线模仿学习与非专家数据

通过利用最优和次优策略收集的数据集，我们提出了一种可扩展的基于模型的离线模仿学习算法框架，其最坏子优性与专家样本相关的时间视野呈线性，实验证明在模拟连续控制领域中，该算法始终表现优于行为克隆。

Jun, 2022