ChatGPT 优于人工工人在文本注释任务中的表现
本文研究了ChatGPT在25个多样化的自然语言处理任务(如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答)中的表现及其个性化响应能力,并与现有的国际先进水平(SOTA)解决方案进行了比较。结果表明,任务难度越高(低SOTA表现),ChatGPT的损失越大。同时也揭示了ChatGPT偏见,在一定程度上限制了ChatGPT的有效性。
Feb, 2023
本文提出了一种基于大型语言模型的数据注释方法,通过提示示例和解释的方式,实现了无监督的数据注释,实验结果表明该方法优于众包注释方法。
Mar, 2023
该研究探讨了ChatGPT等大型语言模型是否有潜力在社交计算任务中复制人类生成的标签注释,并使用ChatGPT重新标注了五个具有里程碑意义的数据集,证明了它在数据注释方面具有潜力,但仍存在挑战。
Apr, 2023
该研究调查了 ChatGPT 在零-shot 文本标注和分类任务中一致性的表现,包括模型参数、提示变化和相同输入的重复。结果显示 ChatGPT 的分类输出的一致性可能低于可靠性的科学阈值,并警告使用 ChatGPT 的谨慎性。建议进行彻底的验证,例如与人类注释数据的比较,并不推荐使用 ChatGPT 进行无监督文本标注和分类。
Apr, 2023
本文评估了ChatGPT模型在性能、评估标准、稳健性和错误类型四个方面的能力,并提出了一种用于更准确反映ChatGPT性能的软匹配策略,同时发现了ChatGPT的最主要的错误类型是“未注释的跨度”,从而引发了对标注数据质量的关注,并提示可以使用ChatGPT进行数据标注。
May, 2023
本文通过评估ChatGPT在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的LLM研究提供思路。作者发现ChatGPT能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
研究比较了开源的大型语言模型(LLMs),ChatGPT和人工服务(如MTurk)在文本标注任务中的表现。 发现开源LLMs在高效性,透明性,可再现性和数据保护方面具有竞争力,虽然ChatGPT在大多数任务中表现最好,但开源LLMs在特定任务中也有较高的竞争潜力。
Jul, 2023
对比研究发现,ChatGPT和开源语言模型在标注社会科学研究中的文本任务中表现存在显著差异,而监督分类模型一贯表现更优,因此不建议在社会科学研究中使用ChatGPT进行实质性的文本标注任务。
Nov, 2023
我们在这篇论文中调查了ChatGPT在七个自然语言处理任务领域的真实性能水平,回顾了ChatGPT的社会影响和安全问题,并强调了其评估中的关键挑战和机遇。我们希望我们的调查能够揭示ChatGPT的黑盒特性,以免研究人员被其表面生成所误导。
Apr, 2024
利用大型语言模型(LLMs)如ChatGPT可以通过包容性、道德和可持续的方式解决社会挑战。本文中,我们调查了ChatGPT在社会计算任务中注释数据的潜力,旨在降低进行网络研究的复杂性和成本。通过使用ChatGPT重新注释涵盖与COVID-19虚假信息、社交机器人欺骗、网络欺凌、点击诱饵新闻和俄乌战争等紧迫社会问题相关的七个数据集来评估ChatGPT的潜力。研究结果表明,ChatGPT在处理这些数据注释任务方面表现出很高的潜力,尽管存在一些挑战。在这七个数据集中,ChatGPT的平均注释F1得分为72.00%。其在点击诱饵新闻注释方面表现出色,正确标记数据的比例为89.66%。然而,我们还观察到不同标签的性能存在显著差异。我们的研究揭示了ChatGPT注释性能中的可预测模式。因此,我们提出了GPT-Rater,这是一个工具,用于预测ChatGPT是否能正确标记给定注释任务的数据。研究人员可以使用此工具来确定ChatGPT在其注释需求中是否合适。我们展示了GPT-Rater有效地预测了ChatGPT的性能。在点击诱饵新闻标题数据集上表现最佳,平均F1得分为95.00%。我们相信这项研究为分析开辟了新的途径,并且可以降低参与社会计算研究的障碍。
Jul, 2024