基于交互的学习与行动包容性反馈

Jun, 2022

基于交互的学习与行动包容性反馈

Interaction-Grounded Learning with Action-inclusive Feedback

Tengyang Xie, Akanksha Saran, Dylan J. Foster, Lekan Molu, Ida Momennejad...

TL;DR本文探讨了交互接地学习（IGL) 中的问题，其中学习者的目标是在没有明确奖励的情况下与环境进行最佳交互，提出了一种算法和分析来解决反馈向量包含动作的情况限制 IGL 成功的问题，并通过基于监督数据集的大规模实验证明了这种新方法的有效性。

Abstract

Consider the problem setting of interaction-grounded learning (IGL), in which a learner's goal is to optimally interact with the environment with no explicit reward to ground its policies. The agent observes a context vector, takes an action, and receives a →

interaction-grounded learning latent reward function feedback vector supervised datasets brain-computer interface

发现论文，激发创造

互动引导学习

提出一种交互基础学习的方法，用于解决假肢臂适应用户控制信号的问题，该方法可以通过学习如何评估反馈向量以发现潜在的奖励信号，并制定成功的策略，同时具备理论保证和实证评估。

Jun, 2021

基于交互学习的个性化奖励学习 (IGL）

该研究提出了一种基于 Interaction Grounded Learning（IGL）范式的方法，用于处理不同用户通信方式的多样性，从而实现对不同用户的个性化奖励函数学习，以直接优化潜在的用户满意度，实验结果表明该方法的成功应用。

Nov, 2022

一种基于信息论的互动导向学习方法

提出了一种信息理论方法，Variational Information-based IGL（VI-IGL），用于增强学习问题，在 Interaction-Grounded Learning（IGL）条件下改进了 RL 算法，并在多个强化学习设置中取得了性能上的改进。

Jan, 2024

具有个性化奖励的可证明高效的交互式根植学习

通过与环境进行交互并观察依赖奖励的反馈，互动地接触学习（IGL）是一个强大的框架，该框架中学习者通过最大化无法观察的奖励来改进。我们研究了个性化奖励问题，并提出了第一个在实现性条件下能够证明高效的算法。通过分析，我们发现先前工作的阶跃函数估计器可能由于样本有限效应而无法控制地偏离。我们的解决方案是一种新颖的利普希茨奖励估计器，它低估了真实奖励并具有良好的泛化性能。基于该估计器，我们提出了两种算法，一种基于探索 - 利用，另一种基于反间隙加权。我们将 IGL 应用于从图像反馈和文本反馈中进行学习，这是在实践中出现的无奖励设置。实验结果突显了使用我们的利普希茨奖励估计器的重要性和算法的整体有效性。

May, 2024

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

协作环境中的交互式基于场景的语言理解: IGLU 2021

IGLU 竞赛致力于解决在协作环境下，如何建立可以通过自然语言指令学习解决问题的交互式代理的问题。

May, 2022

2022 年 IGLU：NeurIPS 2022 的协作环境中的交互式语境理解

该研究提出了 IGLU 来解决如何让交互式实体智能在协作环境中学习自然语言指令并解决任务的问题，其关键词包括互动式语言理解、实体智能、自然语言理解和生成、强化学习和人类环评。

May, 2022

知识驱动强化学习

本文提出一种名为知识引导强化学习（KGRL）的框架，该框架采用一种基于嵌入式的注意机制，可以在训练和推理阶段中灵活地改编、重新排列和重复使用外部知识，使得 RL 智能体更受社会接受，并在离散和连续动作空间的任务中展现出更高的样本效率和可解释性。

Oct, 2022

从活动描述中进行交互式学习

提出了一种交互式学习协议，可以通过口头描述训练实现请求响应的代理程序，相对于强化学习和模仿学习，这种协议提供了更多的反馈并提高了样本效率，通过实验和理论保证，证明了该方法的优势在于更加样本高效且具有竞争性的成功率。

Feb, 2021

自我对话交互式强化学习的物体定位

本文介绍了一个交互式培训方法，以改进自然语言对话系统的视觉基础任务。培训过程中，共同的奖励函数引导着两个代理逐渐适应并合作完成任务，同时，该参数化奖励函数更新自身使训练效果得到了明显提高。虽然我们在训练过程中观察到了语言漂移问题，但我们提出使用奖励工程来提高生成对话的可解释性。此外，该研究结果表明评估目标为视觉对话任务时，需要比任务成功率更有语义相关性的评估标准。

Dec, 2017