COLINGApr, 2024

探究少样本 跨领域立场检测模型决策的稳健性:一项预注册研究

TL;DR针对多样观点的新闻推荐系统,识别两个新闻文章是否表达相同观点是至关重要的。本文探讨少样本立场检测的操作化选择的稳健性,特别关注不同主题下的立场建模。实验测试了预注册的关于立场检测的假设,比较了两种立场任务定义(正 / 反对与同一立场),两种 LLM 架构(双编码与交叉编码)以及添加自然语言推理知识,使用预训练的 RoBERTa 模型在来自 7 个不同立场检测数据集的 100 个样本中进行训练。我们的一些假设和之前的结果得到了证实,而其他结果则更不一致。同一立场定义的效果在不同数据集上有所不同,并受到其他建模选择的影响。我们没有发现训练样本中训练主题数量与性能之间的关系。总体上,交叉编码的性能优于双编码,并且将 NLI 训练添加到我们的模型中会显著改善,但这些结果在所有数据集上并不一致。我们的结果表明,在寻找稳健的 ' 立场 ' 建模选择时,需要包含多个数据集和系统建模实验。