使用 FlanT5-XXL 进行零样本立场检测的基准测试：对训练数据、提示和解码策略的洞见和接近 SoTA 的性能

Mar, 2024

使用 FlanT5-XXL 进行零样本立场检测的基准测试：对训练数据、提示和解码策略的洞见和接近 SoTA 的性能

Benchmarking zero-shot stance detection with FlanT5-XXL: Insights from training data, prompting, and decoding strategies into its near-SoTA performance

PDF

Rachith Aiyappa, Shruthi Senthilmani, Jisun An, Haewoon Kwak, Yong-Yeol Ahn

TL;DR我们研究了 LLM 基于零样本立场检测在推文上的表现，使用了 FlanT5-XXL 这一面向指令的开源 LLM，并使用了 SemEval 2016 任务 6A、6B 和 P-Stance 数据集研究了其在不同提示和解码策略下的性能和差异，同时也分析了模型的潜在偏差。我们展示了这种零样本方法可以与甚至超过最先进的基准模型，包括微调模型。我们提供了关于性能的各种见解，包括对指令和提示的敏感性、解码策略、提示的困惑度，以及提示中存在的否定和对立。最后，我们确保 LLM 未在测试数据集上进行训练，并确定了一种部分解释不同解码策略间性能差异的积极偏差。

Abstract

We investigate the performance of llm-based zero-shot stance detection on tweets. Using flant5-xxl, an instruction-tuned open-source LLM,

llm-based zero-shot stance detection flant5-xxl performance decoding strategies biases

发现论文，激发创造

使用预训练语言模型的立场检测教程：BERT 微调与大型语言模型引导

本文提出了两个自包含教程，介绍了使用 BERT fine-tuning 和使用大型语言模型（LLMs）进行推特数据中的立场检测的方法。第一个教程解释了 BERT 架构和标记化，引导用户进行训练、调优和评估使用 HuggingFace transformers 的标准和领域特定的 BERT 模型。第二个教程专注于构建提示和少样本示例，从 ChatGPT 和开源 FLAN-T5 中获取立场而无需进行 fine-tuning。使用混淆矩阵和宏 F1 得分来实施和评估各种提示策略。这些教程提供了代码、可视化和洞察力，揭示了 ChatGPT 和 FLAN-T5 强于经过 fine-tuning 的 BERT 的优势。通过以易于理解和实用的方式涵盖模型 fine-tuning 和基于提示的技术，这些教程使学习者能够获得有关立场检测的前沿方法的应用经验。

Jul, 2023

针对目标的提示蒸馏进行小样本立场检测

本文提出了基于预训练语言模型（PLMs）的提示微调方案，以实现针对不同目标的在有限数据情况下的态度检测，通过设计面向目标的提示和提出新的翻译，来有效实现本文提出的方法，实验结果表明我们的模型在全数据和少样本场景下均具有优越的性能。

Jun, 2022

社交媒体上的立场检测与优化的大型语言模型

本研究评估了立场检测方法的演变，从早期的机器学习方法过渡到划时代的 BERT 模型，最终到现代的大语言模型（LLMs），如 ChatGPT、LLaMa-2 和 Mistral-7B。结果强调了 LLMs 在准确检测立场方面的卓越能力，LLaMa-2 和 Mistral-7B 表现出极高的效率和潜力，值得进一步研究。

Apr, 2024

零样本立场检测：使用广义主题表示的数据集和模型

本文研究如何利用直觉表示捕捉话题之间的隐式关系，提出了一种适用于零样本学习的立场检测模型，并提出了一个新的数据集用于测试。结果表明，这个模型在许多有挑战性的语言现象上表现得更好。

Oct, 2020

LLM 对零样本和少样本提示的比较研究：孟加拉情感分析的微调模型

本研究通过 33,605 条孟加拉文新闻推文和 Facebook 评论创建了一个庞大的手动注释数据集，并对 Flan-T5、GPT-4 和 Bloomz 等多种语言模型进行了零指导和少量指导的上下文学习，与精细调优模型进行了比较分析。研究结果表明，在零指导和少量指导的场景下，单语言变换器模型始终优于其他模型。为了促进进一步的研究探索，我们打算向更广泛的研究社区公开提供这个数据集和我们的研究工具。

Aug, 2023

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023

大型语言模型在目标情感分析中的应用

本文研究使用基于解码器的生成式 Transformer 来提取对俄罗斯新闻文章中的命名实体的情感分析能力，通过对 RuSentNE-2023 数据集进行实验，发现在无监督和有监督转换器中，零 - shot 方法的结果与以 BERT-base 为基线的有监督转换器相似，而经过 THoR 理论的 Fine-tuned Flan-T5 模型在推理能力上实现了至少 5% 的增长，并以 Fine-tuned Flan-T5-xl 取得了在 RuSentNE-2023 情感分析中超过先前基于 Transformer 的分类器的最佳结果。

Apr, 2024

社交媒体上零样本立场检测的对抗学习

本文提出一种基于对抗学习的零样本立场检测模型，能够在不同话题上实现最先进的性能和零样本迁移，有助于识别和理解社交媒体上的偏见新闻或评论。

May, 2021

基于对比学习的跨域特征增强的零样本态度检测

本文提出了一种站立检测方法，该方法利用语法表达式模式来捕获可转移的知识，可以有效地适应未见目标，最终采用注意机制来预测先前未见目标并在四个基准数据集上表现出高于竞争基线的效果。

Oct, 2022

OpenStance: 实现真实世界零样本立场检测

本文研究了无样本态度检测的开放域问题，并提出使用间接监督和弱监督相结合的方法解决该问题，实验证明该方法可以取得比有监督方法更好的效果。

Oct, 2022