ACLApr, 2024
背景对任务导向的对话系统中的众包评估标签的影响
Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems
Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke
TL;DR使用大型语言模型对对话上下文进行摘要,以提供丰富而简短的对话上下文描述,并研究其对标注人员性能的影响。通过减少上下文提供来获得更积极的评分,而提供完整的对话上下文则能够获得更高质量的相关性评分,但会引入有用性评分的歧义。使用第一个用户话语作为上下文能够获得一致的评分,减少标注工作量。研究结果展示了任务设计,特别是对话上下文的可用性如何影响众包评估标签的质量和一致性。