重新思考对话系统的评估：用户反馈对众包工作者和 LLM 的影响

SIGIRApr, 2024

重新思考对话系统的评估：用户反馈对众包工作者和 LLM 的影响

Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs

Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke

TL;DR该研究关注用户反馈在评估面向任务型对话系统时的作用，研究发现用户反馈会影响系统评估结果，对于众包工作者而言，用户反馈对有用性和趣味性的评估更具影响力，而对大型语言模型来说，则更看重趣味性和相关性的评估，用户反馈也有助于提高众包工作者在模糊或复杂用户需求下的一致性，这些发现强调了用户反馈在优化系统评估方面的重要性，并提出了将自动化反馈整合到未来研究中的潜力。

Abstract

In ad-hoc retrieval, evaluation relies heavily on user actions, including implicit feedback. In a conversational setting such signals are usually unavailable due to the nature of the interactions, and, instead, t

ad-hoc retrieval evaluation user feedback task-oriented dialogue systems annotators

发现论文，激发创造

背景对任务导向的对话系统中的众包评估标签的影响

使用大型语言模型对对话上下文进行摘要，以提供丰富而简短的对话上下文描述，并研究其对标注人员性能的影响。通过减少上下文提供来获得更积极的评分，而提供完整的对话上下文则能够获得更高质量的相关性评分，但会引入有用性评分的歧义。使用第一个用户话语作为上下文能够获得一致的评分，减少标注工作量。研究结果展示了任务设计，特别是对话上下文的可用性如何影响众包评估标签的质量和一致性。

Apr, 2024

任务导向对话系统中用户满意度估计的因果评估

利用大型语言模型 (LLMs) 生成注重满意度的反事实对话以增加测试集中的原始对话样本，并通过人工注释验证，研究表明，与最先进的微调模型相比，开源的大型语言模型作为少样本的用户满意度评估器，在测试集中不满意标签数量的增加时表现出更高的鲁棒性。

Mar, 2024

分析用户行为以客观评估口语对话系统

间接但客观地评估系统基于用户行为的框架在社交对话任务中揭示了用户行为与主观评估分数之间的关系，并提出了选择适当的用户行为以为每个社交对话任务进行客观评估提供有价值的观察。

Jan, 2024

释放用户反馈潜力：利用大型语言模型作为用户模拟器来增强对话系统

采用 User-Guided Response Optimization 来结合 LLMs 和较小的 TOD 模型并利用 LLMs 生成用户模拟反馈来优化 TOD 模型，实验结果表明我们的方法优于现有最佳方法。

Jun, 2023

将主观众评估作为改进自然语言生成的附加客观标准的估计

本文探讨在多任务学习设置中，使用主观评估作为语言生成模型训练的一部分，并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示，多任务学习的模型生成的话语在主观上评分最高，且在推动对话发展、无冒犯性等方面得分最高。因此，将来可以研究将主观人类评估纳入语言生成模型训练中，从而在开发过程中更好地与人类用户进行交互。

Apr, 2021

基于情绪、人口信息和隐式用户反馈的面向任务的文档驱动对话学习

近期人机交互领域的研究表明，考虑到人口统计信息、用户情感以及从话语中的隐含反馈中学习是任务导向和以文档为基础的对话系统获得用户接受和喜欢的关键。然而，这些发现尚未在自然语言处理领域得到应用，缺乏相应的数据集。为了填补这一空白，我们引入了 FEDI，这是第一个包含任务导向的以文档为基础的对话的英语数据集，其中注释了人口统计信息、用户情感和隐含反馈。我们使用 FLAN-T5、GPT-2 和 LLaMA-2 进行实验，结果表明这些数据有潜力改善任务完成情况、生成回答的事实一致性以及用户接受程度。

Jan, 2024

利用 LLMs 进行对话质量测量

该论文探讨了使用大型语言模型（LLMs）进行自动对话质量评估的方法，并在公共和专有数据集上尝试了各种配置。结果表明，更大的模型产生了更准确的对话标签；算法选择背景上下文示例优于随机选择；在输出最终标签之前，使用 “思维链”（CoT）推理和标签提取过程进行合理化，可以提高性能；精细调整的 LLMs 优于开箱即用的模型。研究结果表明，合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。

Jun, 2024

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021

对话中利用部署数据的隐式反馈

通过学习用户与已部署模型之间的自然对话，我们研究了提高社交对话代理的方法，无需额外的注释。利用用户响应长度、情感以及未来人类发言中的反应等信号来隐式衡量机器生成发言的质量。我们的实验使用了 BlenderBot（Xu 等，2023 年）的公开发布的部署数据。人工评估表明，我们的新模型在基线回复上有所改进；然而，我们发现一些代理信号也可能导致具有不良特性的生成。例如，优化对话长度可能导致比基线更具争议性或不友好的生成，而优化积极情感或反应则可能减少这些行为。

Jul, 2023