Jan, 2025
评估大型语言模型与人类注释者在潜在内容分析中的表现:情感、政治倾向、情绪强度和讽刺
Evaluating Large Language Models Against Human Annotators in Latent
Content Analysis: Sentiment, Political Leaning, Emotional Intensity, and
Sarcasm
TL;DR本研究解决了大型语言模型(LLMs)在潜在内容分析中与人类注释者表现的系统性比较不足的问题。通过对七种先进的LLM进行评估,结果表明它们在情感分析和政治倾向评估中表现出高度可靠性,尤其是GPT-4在这些领域能够有效复制人类分析,但在情绪强度和讽刺检测上仍需依赖人类的专业知识。