Oct, 2023

众包工作中大型语言模型的使用情况和预防措施

TL;DR我们的研究显示,在人群工作者中普遍使用大型语言模型(LLM),而有针对性的缓解策略可以显著降低LLM的使用,但不能完全消除。在一个文本摘要任务中,未对工作者在任何方面指示LLM的使用,估计LLM的使用普遍程度约为30%,但通过要求工作者不使用LLM和提高使用LLM的代价(例如禁用复制粘贴)减少了约一半。副本分析进一步揭示了LLM的使用及其预防的见解:LLM的使用产生高质量但同质化的回答,可能会损害关注人类(而非模型)行为的研究并降低以众包数据进行训练的未来模型的质量。同时,防止LLM的使用可能与获取高质量回答的目标相悖;例如,要求工作者不使用LLM会导致摘要中的关键字数量减少,从而丢失了关键信息。我们的估计可能随着LLM的普及或能力的增加以及其使用方式的变化而改变。然而,在广泛采用之前,了解基于LLM的工具和用户的共同演变对于维护使用众包进行的研究的有效性至关重要,我们提供了一个重要的基线。