背景对任务导向的对话系统中的众包评估标签的影响

ACLApr, 2024

背景对任务导向的对话系统中的众包评估标签的影响

Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems

Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke

TL;DR使用大型语言模型对对话上下文进行摘要，以提供丰富而简短的对话上下文描述，并研究其对标注人员性能的影响。通过减少上下文提供来获得更积极的评分，而提供完整的对话上下文则能够获得更高质量的相关性评分，但会引入有用性评分的歧义。使用第一个用户话语作为上下文能够获得一致的评分，减少标注工作量。研究结果展示了任务设计，特别是对话上下文的可用性如何影响众包评估标签的质量和一致性。

Abstract

crowdsourced labels play a crucial role in evaluating task-oriented dialogue systems (TDSs). Obtaining high-quality and consistent ground-truth labels from annotators presents challenges. When evaluating a TDS, annotators must fully comprehend the dialogue before providing judgments. P

crowdsourced labels task-oriented dialogue systems dialogue context annotation quality large language models

发现论文，激发创造

重新思考对话系统的评估：用户反馈对众包工作者和 LLM 的影响

该研究关注用户反馈在评估面向任务型对话系统时的作用，研究发现用户反馈会影响系统评估结果，对于众包工作者而言，用户反馈对有用性和趣味性的评估更具影响力，而对大型语言模型来说，则更看重趣味性和相关性的评估，用户反馈也有助于提高众包工作者在模糊或复杂用户需求下的一致性，这些发现强调了用户反馈在优化系统评估方面的重要性，并提出了将自动化反馈整合到未来研究中的潜力。

Apr, 2024

上下文的重要性：对时间问答系统中上下文信息影响的实证研究

该论文通过经验性地考察训练在各种上下文类型中的时间问答（TQA）系统的鲁棒性，填补大型语言模型（LLM）在处理时态信息方面的不足，发现在涵盖相关、无关、稍微改动和无上下文的混合情况下训练，能增强模型的鲁棒性和准确性，并且问题先于上下文的位置布局有着明显影响。提出了两个新的上下文丰富的 TQA 数据集，ContextAQA 和 ContextTQE，并提供了全面的评估和指南，为培养鲁棒的 TQA 模型奠定了基础，对加强 LLM 在面对多样化和潜在对抗性信息时的鲁棒性具有广泛的影响。

Jun, 2024

上下文对聊天翻译评估是否有帮助？

通过对自动度量、机器翻译聊天等领域进行元评估，我们发现引用自由度量相较于引用依赖度量滞后，尤其在评估英文以外的翻译质量时。我们研究了如何将对话上下文信息融入度量中，并发现将上下文信息与神经学习度量相结合有助于提高自由度量在无参考情景下与人类判断的相关性，以及在评估英文以外的翻译时的性能。最后，我们提出了一种新的评估度量方法 Context-MQM，并验证了添加上下文即使对基于大型语言模型（LLM）的评估度量也是有帮助的。

Mar, 2024

上下文解锁情感：基于文本的情感分类数据集在大型语言模型中的审计

利用大型语言模型的表达能力，为输入文本合成额外的上下文，以增加其与带有注释的情感标签的关联性。通过提出文本上下文的形式化定义，并使用提示策略增强这种上下文信息，我们通过人工评估和实证评估证明了我们的方法改善了输入和人工注释标签之间的关联性。

Nov, 2023

针对口语对话理解数据的低成本 LLM 注释研究

自动增强口语对话语料库中的语义表示的研究，评估了大型语言模型微调的相关性、生成注释所捕捉的知识，以及半自动注释的影响。

Jun, 2024

客户支持对话的对话质量和情绪标记

本文提出了一种用于情感识别和对话质量评估的整体注释方法，为发展文本分类模型提供了一个独特而有价值的资源，并且显示出需要进一步研究以在实际应用中利用这些模型。

Nov, 2023

关于机器翻译结果的大规模文档层面人工评估用户界面

研究发现，针对机器翻译的人工评估需要考虑文本上下文，然而用户界面对于标注者的生产力和评估可靠性的影响却鲜有研究。本文通过比较两种不同方法获得的人工评估数据，证明了一个以文档为中心的评估方法可以提高数据的质量，但却需要更多的时间投资。

Apr, 2021

测量文档级机器翻译系统中的语境利用

文件级别的翻译模型通常使用一般性指标（如 BLEU）进行评估，而这些指标对于上下文的益处并不具有信息量。我们的研究提出了补充基于准确性评估的上下文利用度量的方法，并且通过扰动分析发现这是一种有效的全局上下文利用度量。此外，我们还提出了一种细粒度的现象特定评估方法，用于衡量对处理上下文相关的话语现象的支持上下文的贡献。我们的研究结果表明自动注释的支持上下文与人工注释的上下文给出了类似的结论，并可以作为人工注释不可用的情况下的替代方法。最后，我们强调了在评估上下文利用度时使用话语丰富的数据集的重要性。

Feb, 2024

面向任务的对话与上下文学习

使用大型语言模型（LLMs）的上下文学习能力与业务逻辑的确定执行相结合，描述了一种构建面向任务的对话系统的系统。与主要用于行业的基于意图的 NLU 方法相比较，我们的实验表明，使用我们的系统开发聊天机器人所需的工作量明显较少，这些聊天机器人可以成功地进行复杂对话，并且我们的系统对于大规模任务导向的对话系统具有可扩展的有益特性。我们提供了我们的实现用于使用和进一步研究。

Feb, 2024

面向任务导向对话系统的语境数据增强

我们开发了一种新型的对话扩充模型，通过完整的对话上下文生成用户的回合，并通过语言模型的新提示设计和输出重新排序，所生成对话可直接用于训练下游对话系统，在常见的基准数据集 MultiWoZ 和 SGD 上，展示了我们的对话扩充模型生成高质量对话并使对话成功率较基准线提高多达 8%。

Oct, 2023