ACLApr, 2024

背景对任务导向的对话系统中的众包评估标签的影响

TL;DR使用大型语言模型对对话上下文进行摘要,以提供丰富而简短的对话上下文描述,并研究其对标注人员性能的影响。通过减少上下文提供来获得更积极的评分,而提供完整的对话上下文则能够获得更高质量的相关性评分,但会引入有用性评分的歧义。使用第一个用户话语作为上下文能够获得一致的评分,减少标注工作量。研究结果展示了任务设计,特别是对话上下文的可用性如何影响众包评估标签的质量和一致性。