利用校准策略减轻大型语言模型在立场检测中的偏见

Feb, 2024

利用校准策略减轻大型语言模型在立场检测中的偏见

Mitigating Biases of Large Language Models in Stance Detection with Calibration

Ang Li, Jingqian Zhao, Bin Liang, Lin Gui, Hui Wang...

TL;DR在这篇论文中，我们提出了一种新颖的门控校准网络来减轻大型语言模型在态度检测中的偏见，通过构建反事实增强数据来纠正态度偏见，实验结果表明，提出的 MB-Cal 方法可以有效地减轻大型语言模型的偏见，达到最先进的结果。

Abstract

large language models (LLMs) have achieved remarkable progress in many natural language processing tasks. However, our experiment reveals that, in stance detection tasks, LLMs may generate biased stances due to s

large language models stance detection biases mb-cal calibration

发现论文，激发创造

大型语言模型在立场分类中的应用

使用大型语言模型（LLMs）进行立场分类的研究发现，尽管 LLMs 在某些数据集中的准确性可以匹配甚至超过标准结果，但它们的整体准确性并不明确优于受监督模型的结果，从而揭示了 LLMs 在立场分类方面的改进潜力。然而，LLMs 的应用为无监督立场检测开辟了新的有前途的途径，从而减少了手动收集和注释立场的需求，不仅简化了这一过程，还为扩大跨语言立场检测能力铺平了道路。通过本文，我们阐明了 LLMs 的立场分类能力，为该领域未来的进展提供了宝贵的见解。

Sep, 2023

社交媒体上的立场检测与优化的大型语言模型

本研究评估了立场检测方法的演变，从早期的机器学习方法过渡到划时代的 BERT 模型，最终到现代的大语言模型（LLMs），如 ChatGPT、LLaMa-2 和 Mistral-7B。结果强调了 LLMs 在准确检测立场方面的卓越能力，LLaMa-2 和 Mistral-7B 表现出极高的效率和潜力，值得进一步研究。

Apr, 2024

缓解预训练立场检测中的立场偏见的相对反事实对比学习

我们提出了相对反事实对比学习（Relative Counterfactual Contrastive Learning，RCCL）方法，用于缓解预训练立场偏差，并保留上下文立场关系。实验证明，该方法优于立场检测和去偏差基线模型。

May, 2024

推进社交媒体帖子立场注释：对大型语言模型和众包的比较分析

分析了使用大型语言模型在社交媒体中自动进行文本标注的效果和准确性，并探讨了人工标注者与模型的判断差异，发现模型通常在人工标注者很难达成一致意见的情况下表现不佳，对于进一步提高自动立场检测的准确性和全面性，建议综合运用人工专业知识和模型预测的方法。

Jun, 2024

基于协作角色注入的立场检测

Stance detection is a crucial task in content analysis, and this paper presents a COLA framework that utilizes LLMs to handle multi-aspect knowledge, advanced reasoning, and collaborative agents to achieve state-of-the-art performance without additional data annotation or model training, emphasizing its usability, accuracy, effectiveness, explainability, and versatility.

Oct, 2023

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024

基于似然的大型语言模型评估偏差的缓解

大型语言模型广泛用于自然语言生成任务的自动评估指标，然而，由于句子中的表面差异（如词序和句子结构），可能会导致语言模型的可能性有所偏差，本文研究了基于语言模型的评估器中可能存在的可能性偏见，并提出了缓解可能性偏见的方法，该方法利用高度偏倚的实例作为少样本示例进行上下文学习，实验证明我们测试的几个语言模型存在可能性偏见，而且我们提出的方法成功地缓解了这种偏见，并显著提高了评估性能（与人类评分的相关性）。

Feb, 2024

在大型语言模型中定位和缓解性别偏见

本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应，并在此基础上提出了最小二乘去偏（LSDM）方法，用于减少职业代词中的性别偏见，实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见，同时在其他方面完全保留了模型的能力。

Mar, 2024

不要走极端：揭示 LLMs 在隐性仇恨言论检测中的过度敏感性和校准限制

大型语言模型在检测隐含仇恨言论和表达置信度方面存在敏感性和自信度失调的问题，需要谨慎优化模型以确保公平性。

Feb, 2024

消除大型视觉语言模型中的偏见

在计算机视觉和自然语言处理领域，本研究重要不可或缺的工具是大型视觉 - 语言模型（LVLMs），它们能够根据视觉输入生成文本描述。然而，我们的调查发现生成的内容存在显著的偏见，主要受到底层大型语言模型（LLMs）的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息，我们提出了两种简单且无需训练的策略。首先，对于分类或多项选择问题回答（QA）等任务，我们通过仿射变换提出了一个 “校准” 步骤来调整输出分布。这种 “事后去偏” 的方法确保了当图像不存在时每个答案都具有均匀的分数，作为一种有效的正则化技术以减轻 LLM 先验的影响。对于更复杂的开放式生成任务，我们将这种方法扩展为 “去偏抽样”，借鉴了对比解码方法的灵感。此外，我们的研究还揭示了 LVLMs 在不同解码配置下的不稳定性，通过对不同设置的系统性探索，我们显著提高了性能，超过了现有评估结果，并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象，还有助于生成更有用和准确的插图。

Mar, 2024