为什么基于提示的公平度量不相关？

ACLJun, 2024

为什么基于提示的公平度量不相关？

Why Don't Prompt-Based Fairness Metrics Correlate?

Abdelrahman Zayed, Goncalo Mordido, Ioana Baldini, Sarath Chandar

TL;DR该研究针对大型语言模型可能学习到的偏见，通过评估和减轻这些偏见的多个指标发现，基于提示的公平性指标间的相关性较低，因此提出了一种名为 CAIRO 的方法，通过增强提示信息来提高公平性指标之间的相关性，并取得了显著的改善。

Abstract

The widespread use of large language models has brought up essential questions about the potential biases these models might learn. This led to the development of several metrics aimed at evaluating and mitigatin

large language models biases fairness metrics prompt-based correlated fairness output (cairo)

发现论文，激发创造

使用有偏尺度衡量公平性：对预训练语言模型中偏差量化的调查

调查表明，对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难，如果不是完全不可能的。建议避免基于嵌入的指标，并专注于下游任务中的公平度评估，以提高未来的公平度比较和评估。

Dec, 2021

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性，并发现我们的度量考虑了 CT 遗漏的忠实性方面。

Apr, 2024

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

考虑平坦度的提示选择可提高准确性和样本效率

该论文介绍了一种用于衡量语言提示效用的新度量标准，它被称为 prompt flatness。作者使用它与其他提示选择度量标准相结合，提出了一种改进的提示选择方法，并且在 6 个分类基准测试中平均提高了 5% 的准确性和 10% 的皮尔逊相关性。

May, 2023

大语言模型的公平指导少样本提示

本文提出了一个度量标准，评估了一个固定提示对标签或给定属性的预测偏差，并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示，以提高上下文学习的性能，并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明，我们的方法可以有效提高模型的在上下文学习性能。

Mar, 2023

自动生成测试内容中的公平性问题识别

旨在探讨自然语言生成中的公平问题，特别关注自动生成的测试内容对测试结果的影响，构建数据集并使用多种分类方法进行实验，发现自我纠正和少样本学习相结合的方法在公平性上有最佳表现。

Apr, 2024

预训练语言模型是否可疑？从因果视角理解隐形风险

本文探讨了基于问题提示的探测方法可能存在的偏见、不一致性和不可靠性，强调了通过因果干预来消除偏差的必要性，并提出了更好的数据集设计、探测框架和更可靠的预训练语言模型评估标准。

Mar, 2022

预训练语言模型在有毒文本分类中的公平性可能存在差异

本研究分析了不同大小的预训练语言模型在两个有毒文本分类任务上的公平性，发现仅关注准确性度量可能会导致具有广泛公平特性变化的模型。我们发现，尽管文献中有所声称，但公平变化很少与模型大小有关。为了提高模型的公平性，该研究表明可以成功地将适用于结构化表格数据的两种后处理方法应用于各种预训练语言模型中。

Aug, 2021

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023

关于语言模型中的相关性偏差和实证公平性的独立性

该论文研究了预先训练的语言模型的偏见和公平性之间的关系，提出了关联偏见和实证公平性的区别，并通过实证结果展示二者之间可能独立存在，最后指出现有的社会学和心理学文献支持这些度量是不相关的。

Apr, 2023