瑞士联邦通讯中的立场检测
利用来自瑞士选举候选人的评论,构建了一个多语言立场检测数据集,包含 3 种语言的 67,000 条评论,预先加入自然问题代表目标,并用此训练出一种适用于所有政治问题的单一模型,使用多语言 BERT 的基线结果表明,该方法在零样本的情况下,进行跨语言和跨目标的转移效果相对成功。
Mar, 2020
研究使用预训练的双向变压器和情感信息,以改进对当代问题长时间讨论的立场检测,并创建一个新的含有情感信息的数据集,该数据集可用于浅层递归神经网络在低参数下达到了与经过微调的 BERT 相同的结果,同时使用简单的方法解释了哪些输入短语对于立场检测产生影响。
May, 2020
本文旨在研究大型语言模型在对于语言数据集难以获得的语言,如形态复杂、资源较少的语言中进行自动立场检测的适用性,同时探索了 ChatGPT 作为一种全零样本分类器的可行性,结果表明 ChatGPT 的性能可与有监督学习相当。最佳模型的应用还可用于研究爱沙尼亚主流新闻来源和右翼民粹主义新闻来源在七年间的历时趋势,并探讨立场变更与现实事件的对应关系,这为新闻分析和媒体监测提供了一个更为简单和省钱的文本分类任务的替代方案。
May, 2023
本研究评估了立场检测方法的演变,从早期的机器学习方法过渡到划时代的 BERT 模型,最终到现代的大语言模型(LLMs),如 ChatGPT、LLaMa-2 和 Mistral-7B。结果强调了 LLMs 在准确检测立场方面的卓越能力,LLaMa-2 和 Mistral-7B 表现出极高的效率和潜力,值得进一步研究。
Apr, 2024
针对多样观点的新闻推荐系统,识别两个新闻文章是否表达相同观点是至关重要的。本文探讨少样本立场检测的操作化选择的稳健性,特别关注不同主题下的立场建模。实验测试了预注册的关于立场检测的假设,比较了两种立场任务定义(正 / 反对与同一立场),两种 LLM 架构(双编码与交叉编码)以及添加自然语言推理知识,使用预训练的 RoBERTa 模型在来自 7 个不同立场检测数据集的 100 个样本中进行训练。我们的一些假设和之前的结果得到了证实,而其他结果则更不一致。同一立场定义的效果在不同数据集上有所不同,并受到其他建模选择的影响。我们没有发现训练样本中训练主题数量与性能之间的关系。总体上,交叉编码的性能优于双编码,并且将 NLI 训练添加到我们的模型中会显著改善,但这些结果在所有数据集上并不一致。我们的结果表明,在寻找稳健的 ' 立场 ' 建模选择时,需要包含多个数据集和系统建模实验。
Apr, 2024
这项研究介绍了主题度量,从提取的主题转换而来的虚拟变量,作为情绪度量的替代和补充,用于态度分类;通过使用 Bestvater 和 Monroe(2023)确定的三个数据集,本研究展示了 BERTopic 在提取连贯主题方面的熟练程度以及主题度量在态度分类中的有效性。实验结果表明,与传统方法(如 Dirichlet Allocation(LDA)和 Non-negative Matrix Factorization(NMF))相比,BERTopic 将连贯性得分提高了 17.07%至 54.20%,这些方法在早期政治学研究中很常见。此外,我们的结果表明,主题度量在态度分类中优于情绪度量,提高了高达 18.95%的性能。我们的发现表明,主题度量对于文本和语料库中态度和情绪相关性较弱的富有上下文的文本特别有效。情绪和主题度量的组合在大多数情况下可以实现最佳性能,并且可以进一步解决仅依赖情绪以及主题度量低一致性得分的局限性。
Oct, 2023
本研究提出新的模型,在跨语言环境下实现了最全面的立场检测实验,通过基于情感的立场数据预训练,相较于几个强基准测试,以及低资源设置下取得了 6% 以上的 F1 绝对改善。
Sep, 2021