SQBC: 在线政治讨论中基于 LLM 生成的合成数据的立场检测的主动学习

Apr, 2024

SQBC: 在线政治讨论中基于 LLM 生成的合成数据的立场检测的主动学习

SQBC: Active Learning using LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions

Stefan Sylvius Wagner, Maike Behrendt, Marc Ziegele, Stefan Harmeling

TL;DR通过使用 LLM 生成的合成数据，我们提供了两种不同的方法来训练和改进在线政治讨论的立场检测代理：一是通过合成数据增加微调数据集以改善立场检测模型的性能；二是基于 “Query-by-Committee” 方法提出了一种新的主动学习方法 SQBC，利用 LLM 生成的合成数据作为预测标准，选择最具信息量的未标记样本进行手动标记。综合实验证明，这两种方法都能改善立场检测性能。有趣的是，我们观察到在主动选择样本上微调可以超过使用完整数据集的性能。

Abstract

stance detection is an important task for many applications that analyse or support online political discussions. Common approaches include fine-tuning →

stance detection transformer based models llm-generated synthetic data active learning method online political discussions

发现论文，激发创造

使用 LLM 生成的合成数据在在线政治讨论中的立场检测的力量

本研究利用生成的合成数据，结合最具信息价值的未标记数据样本，通过微调训练方式，在在线政治讨论中显著提高立场检测的性能。

Jun, 2024

当代议题倾向性预测：数据与实验

研究使用预训练的双向变压器和情感信息，以改进对当代问题长时间讨论的立场检测，并创建一个新的含有情感信息的数据集，该数据集可用于浅层递归神经网络在低参数下达到了与经过微调的 BERT 相同的结果，同时使用简单的方法解释了哪些输入短语对于立场检测产生影响。

May, 2020

深入对话线程，改进社交媒体平台上的目标特定立场检测

本文提出一种新的目标特定立场检测任务 —— 会话立场检测，旨在推断给定数据实例及其相应的会话主题的立场。为此，通过六个主要的香港社交媒体平台，使用注释技术构建基准会话立场检测（CSD）数据集，提出一种模型 Branch-BERT，将上下文信息融入到会话线程中以预测要检测的立场，实验证明该模型相较于其他基线模型能够取得更好的结果表现。

Nov, 2022

大型语言模型在立场分类中的应用

使用大型语言模型（LLMs）进行立场分类的研究发现，尽管 LLMs 在某些数据集中的准确性可以匹配甚至超过标准结果，但它们的整体准确性并不明确优于受监督模型的结果，从而揭示了 LLMs 在立场分类方面的改进潜力。然而，LLMs 的应用为无监督立场检测开辟了新的有前途的途径，从而减少了手动收集和注释立场的需求，不仅简化了这一过程，还为扩大跨语言立场检测能力铺平了道路。通过本文，我们阐明了 LLMs 的立场分类能力，为该领域未来的进展提供了宝贵的见解。

Sep, 2023

回复和引用中的立场（SRQ）：用于学习 Twitter 会话中立场的新数据集

通过对推特上有争议话题的帖子进行回复和引用回复的态度标注，创建了包含超过 5200 个态度标注的推特态度数据集，以提高谣言识别和用户间敌对关系判定的效果。同时，为了提高识别准确率，研究者还设计了引导标注数据选取的方法。研究表明，与单一信息源不同，收集回复和引述信息可以提高学习文本态度的准确性。

Jun, 2020

推进社交媒体帖子立场注释：对大型语言模型和众包的比较分析

分析了使用大型语言模型在社交媒体中自动进行文本标注的效果和准确性，并探讨了人工标注者与模型的判断差异，发现模型通常在人工标注者很难达成一致意见的情况下表现不佳，对于进一步提高自动立场检测的准确性和全面性，建议综合运用人工专业知识和模型预测的方法。

Jun, 2024

社交媒体上的立场检测与优化的大型语言模型

本研究评估了立场检测方法的演变，从早期的机器学习方法过渡到划时代的 BERT 模型，最终到现代的大语言模型（LLMs），如 ChatGPT、LLaMa-2 和 Mistral-7B。结果强调了 LLMs 在准确检测立场方面的卓越能力，LLaMa-2 和 Mistral-7B 表现出极高的效率和潜力，值得进一步研究。

Apr, 2024

利用远程网络监督进行半监督推文态度检测

本研究介绍了一种新的基于半监督学习的立场检测方法 SANDS，通过构建深度特征视图和利用社交网络提供的远程监督信号，SANDS 在美国和印度两个不同政治派别下的推文数据上获得了较高的 F1 得分 0.55 和 0.49。

Jan, 2022

网络和社交媒体中的立场检测：一项比较研究

本文探讨了在社交媒体平台上进行自动立场检测的多种方法，包括神经模型和经典的分类器模型，并对它们的可复现性和比较性能进行了详细的研究和实验。

Jul, 2020

运用语篇关系进行距离微调以进行立场分类

本论文提出了一种新的方法，通过提取特定的语篇关系信息从原始文本中提取带有银标签的数据，以微调用于态度分类的模型并提出了一个 3 阶段的训练框架，实现了从最嘈杂的数据到最少噪音的数据不断降噪。实验结果表明，自动注释的数据集以及 3 阶段训练有助于改善模型在态度分类中的性能，该方法在 NLPCC 2021 共 26 支队伍竞争的观点分类赛道中排名第一，验证了我们方法的有效性。

Apr, 2022