大型语言模型在立场分类中的应用
分析了使用大型语言模型在社交媒体中自动进行文本标注的效果和准确性,并探讨了人工标注者与模型的判断差异,发现模型通常在人工标注者很难达成一致意见的情况下表现不佳,对于进一步提高自动立场检测的准确性和全面性,建议综合运用人工专业知识和模型预测的方法。
Jun, 2024
本研究评估了立场检测方法的演变,从早期的机器学习方法过渡到划时代的 BERT 模型,最终到现代的大语言模型(LLMs),如 ChatGPT、LLaMa-2 和 Mistral-7B。结果强调了 LLMs 在准确检测立场方面的卓越能力,LLaMa-2 和 Mistral-7B 表现出极高的效率和潜力,值得进一步研究。
Apr, 2024
Stance detection is a crucial task in content analysis, and this paper presents a COLA framework that utilizes LLMs to handle multi-aspect knowledge, advanced reasoning, and collaborative agents to achieve state-of-the-art performance without additional data annotation or model training, emphasizing its usability, accuracy, effectiveness, explainability, and versatility.
Oct, 2023
在这篇论文中,我们提出了一种新颖的门控校准网络来减轻大型语言模型在态度检测中的偏见,通过构建反事实增强数据来纠正态度偏见,实验结果表明,提出的 MB-Cal 方法可以有效地减轻大型语言模型的偏见,达到最先进的结果。
Feb, 2024
本文旨在研究大型语言模型在对于语言数据集难以获得的语言,如形态复杂、资源较少的语言中进行自动立场检测的适用性,同时探索了 ChatGPT 作为一种全零样本分类器的可行性,结果表明 ChatGPT 的性能可与有监督学习相当。最佳模型的应用还可用于研究爱沙尼亚主流新闻来源和右翼民粹主义新闻来源在七年间的历时趋势,并探讨立场变更与现实事件的对应关系,这为新闻分析和媒体监测提供了一个更为简单和省钱的文本分类任务的替代方案。
May, 2023
本文提出了对大型语言模型(LLMs)的可靠、可重复和符合伦理的使用的全面标准和最佳实践,涵盖了模型选择、提示工程、结构化提示、提示稳定性分析、严格的模型验证以及伦理和法律影响等关键领域,强调了对 LLMs 的结构化、有导向性和格式化的使用的需求,以确保文本注释实践的完整性和鲁棒性,并倡导在社会科学研究中对 LLMs 进行细致而批判性的参与。
Feb, 2024
使用 5 种最先进的大型语言模型(LLMs)作为 “标注者” 在多个任务上进行评估,并比较其与人类标注的优缺点。总体而言,尽管 LLMs 在某些任务上表现出色,但它们无法替代人类标注的需求。
Jul, 2023
本研究提出新的模型,在跨语言环境下实现了最全面的立场检测实验,通过基于情感的立场数据预训练,相较于几个强基准测试,以及低资源设置下取得了 6% 以上的 F1 绝对改善。
Sep, 2021
通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力,同时揭示了存在的限制,如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解,我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的一致性,从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法,并强调了在这个方向上进一步研究的必要性。
May, 2024