诊断、反馈、适应：人在执行时进行策略适应的框架

ICMLJul, 2023

诊断、反馈、适应：人在执行时进行策略适应的框架

Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for Test-Time Policy Adaptation

Andi Peng, Aviv Netanyahu, Mark Ho, Tianmin Shu, Andreea Bobu...

TL;DR本文提出一种交互式框架，利用用户反馈直接识别个性化任务无关概念生成反事实演示，用于数据增强并获得适合个性化用户目标的策略，通过在真实人类用户的离散和连续控制任务上进行实验证明了该方法有效降低了微调所需演示数量、使用户更好地了解机器人代理失败并使代理服务于个人任务偏好。

Abstract

Policies often fail due to distribution shift -- changes in the state and reward that occur when a policy is deployed in new environments. Data augmentation can increase robustness by making the model invariant to task-irrelevant changes in the agent's observation. However, designers don't know which concepts are irrelevant a priori, especially when differen

data augmentation personalized task-irrelevant concepts counterfactual demonstrations policy adaptation human-robot interaction

发现论文，激发创造

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

对话任务自动学习数据增强策略

通过自动化数据增强方法 AutoAugment, 本文实现了可用于自然语言处理任务的优化扰动操作，并且在对话生成等任务中取得了显著的性能提升。

Sep, 2019

通过反事实轨迹解释强化学习策略

通过展示强化学习代理在更广泛的轨迹分布中的行为，我们的方法可以传达代理在分布转移下的表现，从而有助于代理的有效验证。在用户研究中，我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。

Jan, 2022

基于参数化专家的高效学习数据增强

本研究提出了一种名为增强型策略克隆（APC）的技术，通过使用合成状态在采样轨迹周围诱导反馈敏感性，从而显着减少了克隆专家所需的环境交互次数，实现了从专家到学生策略的高效数据迁移，适用于许多现有的算法。

May, 2022

针对展示偏差的多模态学习的反事实数据增强

提出使用生成的对应事实标签进行校正的反事实增强技术，以解决基于用户行为所导致呈现偏倚问题。经验证，该技术比现有的校正方法以及未校正模型产生更好的性能，并且在理想情况下所生成的对应事实与真实对应事实非常接近。

May, 2023

有效的 Sim2Real 迁移干预设计

本文旨在通过因果推断的角度解释环境干预在域随机化和数据增强中的优越性，并将其作为培养对不相关特征不变性的手段。研究发现，通过在真实世界存在变化的维度中展示具有相似变化的干扰，可以提高学习算法对其它干扰的鲁棒性并提高模拟环境转移的泛化能力。

Dec, 2020

透过敌对数据增强从离线任务表示学习中解离策略

离线元强化学习（OMRL）通过仅依赖静态数据集，使代理程序能够有效应对新任务。然而，许多现有的 OMRL 方法中，学到的任务表示往往与行为策略产生虚假相关，而非准确反映任务的本质特征。为了解决这个问题，我们提出了一种新的算法，通过对抗性数据增强的过程来消除行为策略对任务表示学习的影响，并实现了令人满意的分布外泛化。

Mar, 2024

人机互动机器学习征求人员反馈会降低用户信任和对模型准确性的印象

通过一个模拟物体检测系统的实验，我们研究了交互反馈对用户对智能系统及其准确性理解的影响，结果表明提供循环反馈降低了参与者对系统的信任和其对系统准确性的感知，这凸显了在设计智能系统时考虑用户反馈对用户信任的影响的重要性。

Aug, 2020

一个高效的通用化视觉动作策略框架：基于控制感知增强和特权引导蒸馏

通过数据增强来解决在学习高维视觉观察中适应新环境及复杂视觉变化所面临的泛化问题，提出了学习控制感知掩码的方法以及通过预先训练的强化学习专家将知识传输给学生视觉动作策略来解决训练不稳定性问题。

Jan, 2024

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021