通过将一个全局显式注释分解为本地隐式多模态反馈以提升对话代理

Mar, 2024

通过将一个全局显式注释分解为本地隐式多模态反馈以提升对话代理

Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback

Dong Won Lee, Hae Won Park, Yoon Kim, Cynthia Breazeal, Louis-Philippe Morency

TL;DR本研究通过全局（即对话级别）奖励来对齐基于 LLM 的对话代理，并考虑自然出现的多模态信号。该方法学习了一个本地的、以轮为单位的奖励模型，通过分解人工提供的全局显式（GE）会话级奖励，使用本地隐式（LI）多模态奖励信号来跨模态地塑造奖励分解步骤。这个分解的奖励模型然后作为标准 RHLF 流程的一部分，以提高基于 LLM 的对话代理的性能。我们进行了定量和定性的人类研究来评估我们的 GELI 方法的性能，并发现相比基准方法，在各种对话指标上都显示出了一致的改进。

Abstract

We describe an approach for aligning an LLM-based dialogue agent based on global (i.e., dialogue-level) rewards, while also taking into account naturally-occurring multimodal signals. At a high level, our approac

dialogue agent multimodal signals reward model conversational metrics baseline methods

发现论文，激发创造

稀疏人力监督下的交互多保真度学习，实现经济有效的语言模型适应

我们提出了一种新颖的交互式多保真度学习（IMFL）框架，用于在有限标注预算下以低成本开发小型领域特定的大语言模型，通过平衡低保真度自动标注和高保真度人工标注之间的最佳获取策略，杂质高显学习先进医学和金融任务，在有限的人工标注预算下，IMFL 比人工标注基线在所有四个任务中表现出更好的性能，其中两个任务的性能接近人工标注。

Oct, 2023

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024

通过多目标奖励建模和专家混合解释性偏好

通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络，我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现，并接近更大的 Nemotron-4 340B 奖励模型的性能。

Jun, 2024

通过 RL 对想象中的对话进行零样本目标导向对话

通过使用强化学习进行交互式对话的目标导向任务，本研究提出利用大型语言模型生成可能的交互示例，再通过强化学习算法优化这些示例，以实现更优化的交互能力，从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。

Nov, 2023

MILD: 多模态交互潜在动力学用于学习人机交互

本文提出了一种名为 MILD 的多模态交互潜在动力学方法，将深度学习和概率机器学习结合起来，用于学习人与机器人之间的互动动力学，并在人 - 人互动的演示中进行了实验验证，该方法比相关研究生成更准确的机器人轨迹，还能够直接从基于摄像头的姿势估计中学习生成轨迹。

Oct, 2022

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

带大型语言模型线索的世界模型用于目标实现

通过将提出的具有示意性子目标的语言模型与模型回滚相结合，我们提出了一种新的多模态的基于模型的强化学习方法，名为大语言模型梦境，用以鼓励在具有挑战性任务中发现和达成目标，从而对各种困难的、稀疏奖励的环境进行了大量实验，并显示出优于近期方法的性能提升。

Jun, 2024

离线混合专家对话管理强化学习

本文旨在解决用强化学习为动力的聊天机器人中的在线探索困难问题。作者使用了针对对话规划的多种 RL 算法，利用 MoE-LM 对话模型的结构，通过缩小行动空间并提高 RL-DM 的效能来展示这些算法在开放领域对话中的有效性。

Feb, 2023

通过自对准使用大型语言模型学习机器人技能的奖励

在没有人类干预的情况下，我们提出了一种通过使用大型语言模型（LLM）来学习奖励的方法，该方法通过迭代的自我对齐过程，最小化 LLM 和学习奖励函数之间的排名不一致性，从而在训练效果和效率方面实现了一致的改善，并且相比于基于突变的方法消耗了更少的 GPT 令牌。

May, 2024