聊天机器人不可靠的文本标注工具
本研究使用2382个推文的样本表明,ChatGPT在多个数据标注任务方面表现优于众包工人,特别是零-shot准确率,且其内部编码者间一致性超过了众包工人和训练有素的注释员,而其标注成本比MTurk便宜二十倍左右,这些结果表明大型语言模型在文本分类方面大大提高了效率。
Mar, 2023
本研究的主要目的是提供ChatGPT检测的最新技术的全面评估,同时我们评估了其他AI生成的文本检测工具,以检测ChatGPT生成的内容。此外,我们还创建了一个基准数据集用于评估各种技术在检测ChatGPT生成内容方面的性能。研究结果表明,现有方法都不能有效地检测ChatGPT生成的内容。
Apr, 2023
本文研究了大型语言模型ChatGPT-4在Twitter文本分析任务中对发布者政治意向分类的精度、可靠性和偏差,并结论该模型精度更高、可靠性更高、偏差相等或更低,从而证明了该模型在社会科学中的巨大影响。
Apr, 2023
该研究探讨了ChatGPT等大型语言模型是否有潜力在社交计算任务中复制人类生成的标签注释,并使用ChatGPT重新标注了五个具有里程碑意义的数据集,证明了它在数据注释方面具有潜力,但仍存在挑战。
Apr, 2023
该研究调查了 ChatGPT 在零-shot 文本标注和分类任务中一致性的表现,包括模型参数、提示变化和相同输入的重复。结果显示 ChatGPT 的分类输出的一致性可能低于可靠性的科学阈值,并警告使用 ChatGPT 的谨慎性。建议进行彻底的验证,例如与人类注释数据的比较,并不推荐使用 ChatGPT 进行无监督文本标注和分类。
Apr, 2023
本文评估了ChatGPT模型在性能、评估标准、稳健性和错误类型四个方面的能力,并提出了一种用于更准确反映ChatGPT性能的软匹配策略,同时发现了ChatGPT的最主要的错误类型是“未注释的跨度”,从而引发了对标注数据质量的关注,并提示可以使用ChatGPT进行数据标注。
May, 2023
本文通过评估ChatGPT在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的LLM研究提供思路。作者发现ChatGPT能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
研究比较了开源的大型语言模型(LLMs),ChatGPT和人工服务(如MTurk)在文本标注任务中的表现。 发现开源LLMs在高效性,透明性,可再现性和数据保护方面具有竞争力,虽然ChatGPT在大多数任务中表现最好,但开源LLMs在特定任务中也有较高的竞争潜力。
Jul, 2023
研究中探讨了ChatGPT作为AI生成文本检测器的性能,通过评估它在人工编写与AI生成文本检测任务上的零样本表现,并对公开可用的数据集进行实验。结果发现ChatGPT以及类似的大型语言模型可在自动化检测流程中发挥作用,通过专注于解决问题的一个特定方面并从该解决方案派生出其他方面的解决方案。
Aug, 2023
利用大型语言模型(LLMs)如ChatGPT可以通过包容性、道德和可持续的方式解决社会挑战。本文中,我们调查了ChatGPT在社会计算任务中注释数据的潜力,旨在降低进行网络研究的复杂性和成本。通过使用ChatGPT重新注释涵盖与COVID-19虚假信息、社交机器人欺骗、网络欺凌、点击诱饵新闻和俄乌战争等紧迫社会问题相关的七个数据集来评估ChatGPT的潜力。研究结果表明,ChatGPT在处理这些数据注释任务方面表现出很高的潜力,尽管存在一些挑战。在这七个数据集中,ChatGPT的平均注释F1得分为72.00%。其在点击诱饵新闻注释方面表现出色,正确标记数据的比例为89.66%。然而,我们还观察到不同标签的性能存在显著差异。我们的研究揭示了ChatGPT注释性能中的可预测模式。因此,我们提出了GPT-Rater,这是一个工具,用于预测ChatGPT是否能正确标记给定注释任务的数据。研究人员可以使用此工具来确定ChatGPT在其注释需求中是否合适。我们展示了GPT-Rater有效地预测了ChatGPT的性能。在点击诱饵新闻标题数据集上表现最佳,平均F1得分为95.00%。我们相信这项研究为分析开辟了新的途径,并且可以降低参与社会计算研究的障碍。
Jul, 2024