ICMLJul, 2023

诊断、反馈、适应:人在执行时进行策略适应的框架

TL;DR本文提出一种交互式框架,利用用户反馈直接识别个性化任务无关概念生成反事实演示,用于数据增强并获得适合个性化用户目标的策略,通过在真实人类用户的离散和连续控制任务上进行实验证明了该方法有效降低了微调所需演示数量、使用户更好地了解机器人代理失败并使代理服务于个人任务偏好。