适应群众外包工作流程技术设计LLM链
通过将不同步骤进行连锁,结合原语操作以及交互式系统的支持,可以提高大型语言模型的制约性、用户透明度和协作感,并可以为未来应用中提供多种诊断、校准和比较算法的方法。
Oct, 2021
本论文研究利用自然语言处理和机器学习技术进行概念生成,比较生成方案和众包解决方案的异同,结论表明,利用LLM技术生成的方案平均可行性和实用性更高,而众包解决方案更具新颖性。
May, 2023
本文研究LLMs对众包工人的影响,通过对在Amazon Mechanical Turk上运行的一个摘要任务,发现33-46%的众包工人使用了LLMs,因此需要找到新的方法确保数据来源于人类本身。
Jun, 2023
LLMs在模仿人的行为方面显示出了潜力,尤其是在之前被认为只有人类能够完成的众包任务。然而,当前的研究主要集中在简单的原子任务上。本研究探讨了LLMs是否能够模仿更复杂的众包流程。我们发现现代LLMs可以模拟某些众包工人的能力,但是成功的程度存在变异,并受到请求者对LLMs能力的理解、子任务所需的具体技能以及执行这些子任务的最佳互动模式的影响。我们讨论了人类和LLMs对指令的不同敏感性,并强调为LLMs提供面向人类的保障的重要性,同时探讨了培养人类和LLMs具备互补技能的潜力。关键是,我们展示了复制众包流程为研究LLMs在不同任务上的相对优势(通过对它们在子任务上的表现进行交叉比较)以及LLMs在复杂任务中的潜力,在这些任务中,它们可以完成部分任务而将其他任务留给人类。
Jul, 2023
大型语言模型(LLM)在理解和生成文本数据方面非常强大,但容易出错。本文提出了一种声明性提示工程方法,将LLM视为众包工作者,并借鉴了声明性众包文献的思想,包括多种提示策略、确保内部一致性和探索混合LLM-非LLM方法,使提示工程过程更加有原则。在排序、实体解析和插补方面的初步案例研究展示了我们方法的优势。
Aug, 2023
通过使用众包任务的具体和包含示例的指导性说明书,我们发现,使用众包管道作为大语言模型(LLMs)的提示可以产生比基线提示更多样化的信息。同时,我们还讨论了人类作者和LLMs生成的信息的其他影响。
Aug, 2023
我们的研究显示,在人群工作者中普遍使用大型语言模型(LLM),而有针对性的缓解策略可以显著降低LLM的使用,但不能完全消除。在一个文本摘要任务中,未对工作者在任何方面指示LLM的使用,估计LLM的使用普遍程度约为30%,但通过要求工作者不使用LLM和提高使用LLM的代价(例如禁用复制粘贴)减少了约一半。副本分析进一步揭示了LLM的使用及其预防的见解:LLM的使用产生高质量但同质化的回答,可能会损害关注人类(而非模型)行为的研究并降低以众包数据进行训练的未来模型的质量。同时,防止LLM的使用可能与获取高质量回答的目标相悖;例如,要求工作者不使用LLM会导致摘要中的关键字数量减少,从而丢失了关键信息。我们的估计可能随着LLM的普及或能力的增加以及其使用方式的变化而改变。然而,在广泛采用之前,了解基于LLM的工具和用户的共同演变对于维护使用众包进行的研究的有效性至关重要,我们提供了一个重要的基线。
Oct, 2023
通过对现有众包数据集进行评估,从不同的角度研究了个体众包标签和大语言模型标签的质量,提出了一种众包-大语言模型混合标签聚合方法并验证了其性能,发现将优质大语言模型的标签与现有众包数据集相结合能提高数据集的聚合标签质量,且高于大语言模型标签自身的质量。
Jan, 2024
本研究解决了用户在评估大型语言模型(LLMs)时面临的“空白页”问题,即在构建有效评估管道时的困惑。ChainBuddy是一个集成在ChainForge平台上的人工智能助手,通过提供简便易用的方式来规划和评估LLM行为,显著降低了用户的工作负担并提升了他们的信心,从而推动了对AI开放式评估界面的未来发展。
Sep, 2024