使用大规模人类反馈数据进行对话响应排名训练

EMNLPSep, 2020

使用大规模人类反馈数据进行对话响应排名训练

Dialogue Response Ranking Training with Large-Scale Human Feedback Data

Xiang Gao, Yizhe Zhang, Michel Galley, Chris Brockett, Bill Dolan

TL;DR通过社交媒体反馈数据构建训练集，在 133M 个人类反馈数据上训练了基于 GPT-2 的 DialogRPT 模型，结合评分模型排名机器生成的对话回复，并通过人类评估证明其效果优于基线模型。

Abstract

Existing open-domain dialog models are generally trained to minimize the perplexity of target human responses. However, some human replies are more engaging than others, spawning more followup interactions. Current conversational models are increasingly capable of producing turns that

open-domain dialog models social media feedback data dialogrpt machine-generated dialog responses human evaluation

发现论文，激发创造

社交对话的神经响应排名：一种数据高效的方法

本文提出了使用神经排序器从未标记的数据中有效地训练社交对话系统的方法，并展示了使用该方法通过优化长度作为目标的排序器在性能上优于优化用户评级的排序器，从而可简化未来社交对话代理的数据收集。

Nov, 2018

开放域对话响应选择的系统评估

本研究对开源聊天机器人的多种回复生成方法进行了系统评估，提出了利用手动注释筛选出的多个正向回复和负向回复，从而提高模型效果的新训练数据，并实验证明性能较之采用对抗训练数据有更显著提升。

Aug, 2022

利用自动会话评估器实现连贯和引人入胜的口语对话响应生成

本研究提出一个评估聊天机器人响应的系统，利用明确的反馈机制改进神经响应图生成模型，从而获得更具连续性和参与度的响应。

Apr, 2019

你确定吗？重新排名：为更好的偏好数据集进行重复排名

通过使用强化学习从 AI 反馈 (RLAIF) 来训练大型语言模型 (LLM)，使模型输出更符合人类偏好。我们提出了重复排序方法，通过多次对相同响应进行评估并仅训练那些一致排名的响应。使用 62 种语言中的 2,714 个提示，我们从 7 个顶级多语言 LLM 生成了响应，并让 GPT-4 对每个响应进行了五次排名。通过在六种语言中在 MT-Bench 聊天基准测试中进行评估，我们的方法优于在所有可用提示上进行训练的标准实践。我们的工作凸显了 RLAIF 数据集生成中质量与数量的权衡，并提供了一个增强数据集和模型质量的可叠加策略。

May, 2024

大规模多参与者生成对话建模

本文提出了一种新的对话代理模型 ——Generative Conversation Control，它能够控制对话代理的个性，并通过控制该模型上一次与目标演员的对话，实现对话代理个性的表达，该模型在 Reddit 评论数据上进行了验证和评估，其效果得到了显著提高。

May, 2020

部署检索为基础的任务导向对话响应模型

本文提供了一种 3 步程序来开发满足业务要求的对话模型，包括从历史对话中创建模板、使用神经网络建立对话上下文和业务约束，以及通过自我监督和受训者的方法优化模型，并进行实验验证并在人机交互的环境中应用于商业对话。

Oct, 2022

面向任务的对话系统的上下文感知对话重新排序

提出了一种上下文感知的对话响应重新排序系统，使用神经词嵌入模型和手工或逻辑回归模型，将响应在与当前对话上下文的匹配分数和候选人的概率分布的基础上重新排名，提高了最近提出的端到端任务导向对话系统在具有语音识别错误的实际对话中的性能。

Nov, 2018

OpenAssistant Conversations -- 大型语言模型对齐的民主化

研究大规模语言模型的发布与使用，利用调整技术进行优化以改善使用性，此文介绍 OpenAssistant Conversations 数据库的发布，使用该人类生成的、人类注释的数据集进行训练后得到了全新的软件 OpenAssistant。相对于 ChatGPT，OpenAssistant 的答复被用户更青睐，其发布的代码和数据完全遵循宽松许可证，可供研究者使用。

Apr, 2023

RankPrompt: 逐步对比使语言模型成为更好的推理者

通过使用 RankPrompt 方法，LLMs 可以自我评级其回答，从而显著提高 ChatGPT 和 GPT-4 的推理表现。

Mar, 2024

DialoGPT：大规模生成式预训练技术在对话响应生成中的应用

本文介绍了 DialoGPT，一种大型的、可调整的神经对话响应生成模型，它在 Reddit 上 2005 年至 2017 年的时间跨度内提取的 1.47 亿条对话样本上进行训练。在单轮对话设置中，DialoGPT 能够达到接近人类的性能水平，能够生成比强基线系统更相关、更富有内涵和更具上下文一致性的响应。该预训练模型和训练流程已公开发布，以促进神经响应生成研究和更智能的开放域对话系统的开发。

Nov, 2019