Mar, 2024

使用 FlanT5-XXL 进行零样本立场检测的基准测试:对训练数据、提示和解码策略的洞见和接近 SoTA 的性能

TL;DR我们研究了 LLM 基于零样本立场检测在推文上的表现,使用了 FlanT5-XXL 这一面向指令的开源 LLM,并使用了 SemEval 2016 任务 6A、6B 和 P-Stance 数据集研究了其在不同提示和解码策略下的性能和差异,同时也分析了模型的潜在偏差。我们展示了这种零样本方法可以与甚至超过最先进的基准模型,包括微调模型。我们提供了关于性能的各种见解,包括对指令和提示的敏感性、解码策略、提示的困惑度,以及提示中存在的否定和对立。最后,我们确保 LLM 未在测试数据集上进行训练,并确定了一种部分解释不同解码策略间性能差异的积极偏差。