学习澄清：基于行动对比自我训练的多轮对话

May, 2024

学习澄清：基于行动对比自我训练的多轮对话

Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training

Maximillian Chen, Ruoxi Sun, Sercan Ö. Arık, Tomas Pfister

TL;DRAction-Based Contrastive Self-Training (ACT) is a quasi-online preference optimization algorithm that improves conversation modeling in large language models (LLMs), particularly in the area of disambiguation and dialogue policy learning.

Abstract

large language models (LLMs) aligned through reinforcement learning from human feedback (RLHF) have quickly become one of the dominant paradigms for building intelligent conversational assistant agents. However, despite their strong performance across many benchmarks, LLM-based agents

large language models reinforcement learning from human feedback conversational skills dialogue policy learning ambiguity in conversation

发现论文，激发创造

大型语言模型的主动偏好学习

利用 DPO 进行喂养，通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

通过积极查询进行人类反馈强化学习

提出了一种基于主动学习的 RLHF 方法，通过半数查询获得与最先进的 DPO 方法相当的性能。

Feb, 2024

通过 RL 对想象中的对话进行零样本目标导向对话

通过使用强化学习进行交互式对话的目标导向任务，本研究提出利用大型语言模型生成可能的交互示例，再通过强化学习算法优化这些示例，以实现更优化的交互能力，从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。

Nov, 2023

更多询问，更深了解：基于大语言模型的增强学习问句在决策制定中的应用

利用领导者 - 追随者双层框架，本文实现了一个完全集成的端到端框架，用于处理复杂的推理任务，并通过引入历史发现为生成合适的问题（提示）提供指导，进而指导行动学习。

Oct, 2023

面向任务的对话作为自我监督的自动语音识别催化剂

通过对话的对比学习方法，在不成功的对话中发现易于检测的问题，从而提高自动语音识别模型在任务导向对话中的性能。

Jan, 2024

对话行动标记：使用多轮规划器引导目标导向对话中的语言模型

我们提出了一种称为 Dialogue Action Tokens (DAT) 的方法，它使语言模型代理能够计划目标导向的对话，并且通过将对话转化为游戏的形式，使得强化学习等现有方法可以应用。当在社交模拟平台 Sotopia 上进行评估时，DAT 指导的 LLaMA 模型超过了 GPT-4 的性能，并且我们还将 DAT 应用于一种新型的多轮红队攻击设置中，揭示了一个潜在的新攻击面。

Jun, 2024

离线混合专家对话管理强化学习

本文旨在解决用强化学习为动力的聊天机器人中的在线探索困难问题。作者使用了针对对话规划的多种 RL 算法，利用 MoE-LM 对话模型的结构，通过缩小行动空间并提高 RL-DM 的效能来展示这些算法在开放领域对话中的有效性。

Feb, 2023

直接通过自我奖励对比提示精制的大型语言模型对齐

通过对比提示对生成的偏好数据进行评估，并计算自奖励分数，最终使用 DPO 算法结合此自奖励分数来有效地对齐大型语言模型，实现了不依赖人工标注的偏好数据的 DLMA 方法能够超越 RLHF 方法。

Feb, 2024

对话行为感知 Transformer 用于对话策略学习

利用预训练语言模型的纯文本知识，加速强化学习代理的学习速度，并通过探索对话行为空间最大化长期累积奖励，提出了一种对话行为感知的变压器编码器（DaTrans）。该模型通过在模拟器和人类评估中的验证展示了其有效性和高效性。

Sep, 2023

一种基于强化学习的混合专家方法用于对话管理

使用混合专家语言模型的强化学习对话管理器表现出更大的灵活性以产生具有不同意图的合理话语，并允许强化学习专注于会话级别的对话管理。

May, 2022