ChatGPT-4 在使用零样本学习对政治 Twitter 信息进行注释方面胜过专家和众包工作者

Apr, 2023

ChatGPT-4 在使用零样本学习对政治 Twitter 信息进行注释方面胜过专家和众包工作者

ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political Twitter Messages with Zero-Shot Learning

Petter Törnberg

TL;DR本文研究了大型语言模型 ChatGPT-4 在 Twitter 文本分析任务中对发布者政治意向分类的精度、可靠性和偏差，并结论该模型精度更高、可靠性更高、偏差相等或更低，从而证明了该模型在社会科学中的巨大影响。

Abstract

This paper assesses the accuracy, reliability and bias of the Large Language Model (LLM) chatgpt-4 on the text analysis task of classifying the political affiliation of a twitter poster based on the content of a

large language model chatgpt-4 twitter political affiliation textual data

发现论文，激发创造

ChatGPT 优于人工工人在文本注释任务中的表现

本研究使用 2382 个推文的样本表明，ChatGPT 在多个数据标注任务方面表现优于众包工人，特别是零 - shot 准确率，且其内部编码者间一致性超过了众包工人和训练有素的注释员，而其标注成本比 MTurk 便宜二十倍左右，这些结果表明大型语言模型在文本分类方面大大提高了效率。

Mar, 2023

开源大型语言模型在文本注释任务中胜过众包工作者并接近 ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT 和人工服务（如 MTurk）在文本标注任务中的表现。发现开源 LLMs 在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然 ChatGPT 在大多数任务中表现最好，但开源 LLMs 在特定任务中也有较高的竞争潜力。

Jul, 2023

ChatGPT 是否能够复现人类生成的标签？社交计算任务的研究

该研究探讨了 ChatGPT 等大型语言模型是否有潜力在社交计算任务中复制人类生成的标签注释，并使用 ChatGPT 重新标注了五个具有里程碑意义的数据集，证明了它在数据注释方面具有潜力，但仍存在挑战。

Apr, 2023

聊天机器人不可靠的文本标注工具

对比研究发现，ChatGPT 和开源语言模型在标注社会科学研究中的文本任务中表现存在显著差异，而监督分类模型一贯表现更优，因此不建议在社会科学研究中使用 ChatGPT 进行实质性的文本标注任务。

Nov, 2023

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

ChatGPT 作为新闻评论员：能否生成类似人类观点的 LLM？

研究了 GPT-3.5 在荷兰新闻文章上生成类似人类评论的能力，通过用多种提示技术进行人类相似度分析，并发现生成的 BERT 模型可以轻松区分人类写的评论和 GPT-3.5 生成的评论，且词汇多样性方面人类评论始终较高，表明生成性大语言模型在创造类似人类的有主观观点的评论方面仍然受限。

Dec, 2023

推进社交媒体帖子立场注释：对大型语言模型和众包的比较分析

分析了使用大型语言模型在社交媒体中自动进行文本标注的效果和准确性，并探讨了人工标注者与模型的判断差异，发现模型通常在人工标注者很难达成一致意见的情况下表现不佳，对于进一步提高自动立场检测的准确性和全面性，建议综合运用人工专业知识和模型预测的方法。

Jun, 2024

如何使用大型语言模型进行文本编码：以公共政策文件中的父亲角色为例

近期大语言模型（LLM）如 GPT-3 和 GPT-4 在政治学领域的文本分析方面取得了新突破，它们承诺以更好的结果和更少的编程工作来实现自动化。本研究评估 LLM 在三个原始编码任务的非英文政治学文本上的效果，并提供了在政治学研究中使用 LLM 进行文本编码的详细说明。我们的案例研究为希望将 LLM 纳入文本分析研究的研究人员提供了实用指南。我们发现，当提供了详细的标签定义和编码示例时，LLM 可以与甚至优于人工标注员，且速度快得多（高达数百倍），成本更低（比人工编码节省高达 60%），且更易于扩展到大量文本。总体而言，LLM 是大多数文本编码项目的可行选择。

Nov, 2023

评估大型语言模型在课堂对话分析中的应用

该研究探讨了大型语言模型（LLM），特别是 GPT-4，在课堂对话分析中的应用，这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点，调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析，包括数学和语文课堂的对话，该研究对人工编码的对话进行了评估，并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出，以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明，使用 GPT-4 能够显著节省时间，并且模型与人工编码者之间具有高度的一致性，尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。

Feb, 2024

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023