基于似然的大型语言模型评估偏差的缓解

Feb, 2024

基于似然的大型语言模型评估偏差的缓解

Likelihood-based Mitigation of Evaluation Bias in Large Language Models

Masanari Ohi, Masahiro Kaneko, Ryuto Koike, Mengsay Loem, Naoaki Okazaki

TL;DR大型语言模型广泛用于自然语言生成任务的自动评估指标，然而，由于句子中的表面差异（如词序和句子结构），可能会导致语言模型的可能性有所偏差，本文研究了基于语言模型的评估器中可能存在的可能性偏见，并提出了缓解可能性偏见的方法，该方法利用高度偏倚的实例作为少样本示例进行上下文学习，实验证明我们测试的几个语言模型存在可能性偏见，而且我们提出的方法成功地缓解了这种偏见，并显著提高了评估性能（与人类评分的相关性）。

Abstract

large language models (LLMs) are widely used to evaluate natural language generation tasks as automated metrics. However, the likelihood, a measure of LLM's plausibility for a sentence, can vary due to superficia

large language models likelihood bias automated metrics evaluation in-context learning

发现论文，激发创造

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

大型语言模型的评估存在不一致和偏见

本研究通过使用 SummEval 数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

超越概率：揭示大型语言模型评估中的不一致性

使用大型语言模型（LLMs）进行多项选择题（MCQs）的实证研究表明，概率评估方法在生成预测方面存在内在局限性，与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关，结果强调了 LLMs 评估方法的有效性和未来研究的启示。

Feb, 2024

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024

探测大型语言模型中的未预料偏见

通过探索新的方法来检测大型语言模型中的潜在偏见，本研究聚焦于不确定性量化和可解释人工智能方法，旨在提高模型决策的透明性，以识别和理解不明显的偏见，从而为更加公平和透明的人工智能系统的发展做出贡献。

Apr, 2024

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023

LLMs 的高风险决策中的认知偏差

我们介绍了 BiasBuster，这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集，我们测试了各种减轻偏见的策略，并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见，而无需为每种偏见类型手动制作示例。

Feb, 2024

探索价值偏见：LLM 模型向理想状态的偏离

一项研究发现，大型语言模型的非故意回应存在价值偏差，倾向于偏爱高价值选项，该偏差在不同领域的语言模型中都存在，并对相关应用场景选择起到影响。

Feb, 2024

大型语言模型（LLM）偏差指数 -- LLMBI

大型语言模型偏差指数（LLMBI）通过量化和解决大型语言模型（如 GPT-4）中固有的偏见，为多元领域中越来越普遍和重要的大型语言模型引入了一种创新的度量方法。该研究构建了 LLMBI，通过包括但不限于年龄、性别和种族偏见在内的多个偏见维度的复合评分系统，系统地衡量和缓解可能影响模型响应的偏见。通过收集和注释大型语言模型的响应，应用先进的自然语言处理（NLP）技术进行偏见检测，并通过专门设计的数学公式计算 LLMBI 得分，该公式综合了多个偏见维度的加权平均、数据集多样性不足的惩罚和情感偏见的校正。实证分析使用 OpenAI 的 API 响应进行，在代表性的偏见检测方法中采用了先进的情感分析。研究发现，虽然 LLMs 在文本生成方面展示了令人印象深刻的能力，但在不同维度上存在不同程度的偏见。LLMBI 为比较不同模型和不同时期的偏见提供了量化度量，为系统工程师、研究人员和监管机构提供了重要工具，以提高 LLMs 的公平性和可靠性。它突显了 LLMs 在模仿无偏人类响应方面的潜力，并强调了持续监测和校准此类模型以与不断发展的社会规范和道德标准保持一致的必要性。

Dec, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023