推进社交媒体帖子立场注释:对大型语言模型和众包的比较分析
使用大型语言模型(LLMs)进行立场分类的研究发现,尽管 LLMs 在某些数据集中的准确性可以匹配甚至超过标准结果,但它们的整体准确性并不明确优于受监督模型的结果,从而揭示了 LLMs 在立场分类方面的改进潜力。然而,LLMs 的应用为无监督立场检测开辟了新的有前途的途径,从而减少了手动收集和注释立场的需求,不仅简化了这一过程,还为扩大跨语言立场检测能力铺平了道路。通过本文,我们阐明了 LLMs 的立场分类能力,为该领域未来的进展提供了宝贵的见解。
Sep, 2023
本研究评估了立场检测方法的演变,从早期的机器学习方法过渡到划时代的 BERT 模型,最终到现代的大语言模型(LLMs),如 ChatGPT、LLaMa-2 和 Mistral-7B。结果强调了 LLMs 在准确检测立场方面的卓越能力,LLaMa-2 和 Mistral-7B 表现出极高的效率和潜力,值得进一步研究。
Apr, 2024
本文旨在研究大型语言模型在对于语言数据集难以获得的语言,如形态复杂、资源较少的语言中进行自动立场检测的适用性,同时探索了 ChatGPT 作为一种全零样本分类器的可行性,结果表明 ChatGPT 的性能可与有监督学习相当。最佳模型的应用还可用于研究爱沙尼亚主流新闻来源和右翼民粹主义新闻来源在七年间的历时趋势,并探讨立场变更与现实事件的对应关系,这为新闻分析和媒体监测提供了一个更为简单和省钱的文本分类任务的替代方案。
May, 2023
Stance detection is a crucial task in content analysis, and this paper presents a COLA framework that utilizes LLMs to handle multi-aspect knowledge, advanced reasoning, and collaborative agents to achieve state-of-the-art performance without additional data annotation or model training, emphasizing its usability, accuracy, effectiveness, explainability, and versatility.
Oct, 2023
通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力,同时揭示了存在的限制,如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解,我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的一致性,从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法,并强调了在这个方向上进一步研究的必要性。
May, 2024
本文提出了对大型语言模型(LLMs)的可靠、可重复和符合伦理的使用的全面标准和最佳实践,涵盖了模型选择、提示工程、结构化提示、提示稳定性分析、严格的模型验证以及伦理和法律影响等关键领域,强调了对 LLMs 的结构化、有导向性和格式化的使用的需求,以确保文本注释实践的完整性和鲁棒性,并倡导在社会科学研究中对 LLMs 进行细致而批判性的参与。
Feb, 2024
我们开发了一个基于 LLM 的框架,用于在线健康社区中新兴意见挖掘的策划和评估,以匹配 Reddit 中源自帖子标题和评论的(标题,评论)对之间的态度检测问题。我们还释放了一个新的测试数据集,名为 LC-Stance,用于评估在线健康社区中的声明识别和态度检测任务。我们的评估表明,GPT-4 在零 - shot 态度检测方面明显优于之前的工作,我们还通过 LLM 模型诊断发现声明类型和评论长度是模型错误的原因。
Mar, 2024
本文研究了大型语言模型 ChatGPT-4 在 Twitter 文本分析任务中对发布者政治意向分类的精度、可靠性和偏差,并结论该模型精度更高、可靠性更高、偏差相等或更低,从而证明了该模型在社会科学中的巨大影响。
Apr, 2023