ExaASC:一个阿拉伯语普遍目标为基础的立场检测语料库
利用来自瑞士选举候选人的评论,构建了一个多语言立场检测数据集,包含 3 种语言的 67,000 条评论,预先加入自然问题代表目标,并用此训练出一种适用于所有政治问题的单一模型,使用多语言 BERT 的基线结果表明,该方法在零样本的情况下,进行跨语言和跨目标的转移效果相对成功。
Mar, 2020
本文提出一种新的目标特定立场检测任务 —— 会话立场检测,旨在推断给定数据实例及其相应的会话主题的立场。为此,通过六个主要的香港社交媒体平台,使用注释技术构建基准会话立场检测(CSD)数据集,提出一种模型 Branch-BERT,将上下文信息融入到会话线程中以预测要检测的立场,实验证明该模型相较于其他基线模型能够取得更好的结果表现。
Nov, 2022
该研究针对在线上的虚假信息和误导信息的不断传播,通过使用检索到的相关文档的立场检测来解决争论真实性预测的问题,并推出了一个有多个语言支持的自动化系统来进行大规模的对抗,其中最佳的 BERT-based model 可达到 85%的准确率和 78%的宏 F1 分数。
Apr, 2021
文章探讨基于目标的立场检测,使用条件 LSTM 编码建立 tweet 的表示并考虑了目标未提及且缺乏训练数据的情况,在 SemEval 数据集上超越了大部分方法且当加入弱监督时达到了最优效果。
Jun, 2016
该论文探讨了在阿拉伯语新闻断言验证和观点预测中使用文本蕴含的应用,并使用一个新的语料库。作者介绍了语料库的创建方法和注释过程,开发了用于两个提出的任务的两个机器学习基线:断言验证和立场预测。作者的最佳模型利用预训练(BERT),在立场预测任务上实现了 76.7 F1,在断言验证任务上实现了 64.3 F1。结果表明,尽管通过预训练学习到的语言特征和世界知识对于立场预测是有用的,但是这些学习表示对于没有上下文或证据的断言验证是不够的。
May, 2020
本文介绍了一种基于社交媒体的立场检测的方法,该方法使用了情感分析来帮助检测人们的立场,同时构建了一个用于训练和测试机器学习模型的数据集,并使用了远程监督技术和词嵌入来进一步提高立场检测的准确性。
May, 2016
Stanceosaurus 为一个包含 28,033 个英语、印地语和阿拉伯语推文的新语料库,对 251 个虚假言论的立场进行了注释,并引入了更为精细的五类标签策略以区分隐含立场,预训练的基于变压器的立场分类器在未见训练数据的其他地区的言论中呈现出良好的泛化性能,语言跨度范围广。此外,该文提供了一种域自适应方法,以进一步提高在 Stanceosaurus 上的表现。
Oct, 2022
该研究提出了一种利用 Twitter 时间轴内容分析的非监督态度检测框架 (Tweets2Stance) 来预测社交媒体用户态度的方法,并通过对六个政党在 20 个不同议题上的一致性进行分析,依据党派帐号的言论预测政治主张。结果表明,T2S 能以最小 MAE 为 1.13 的准确度成功检测用户的态度。
Apr, 2022
介绍了巴西葡萄牙语 Twitter 领域的多模态语料库 UstanceBR,该语料库包含对所选目标主题的 86.8k 个标记立场,并提供了有关在社交媒体上发布这些立场的用户的广泛网络信息。描述了语料库的多模态数据以及基于文本和网络相关信息的领域内和零样本立场预测的若干使用示例,旨在为未来的研究提供初步基准结果。
Dec, 2023