语言模型的新发现：在自然语言推理数据和模型中的鲁棒性 - 偏差互动

May, 2023

语言模型的新发现：在自然语言推理数据和模型中的鲁棒性 - 偏差互动

Keeping Up with the Language Models: Robustness-Bias Interplay in NLI Data and Models

Ioana Baldini, Chhavi Yadav, Payel Das, Kush R. Varshney

TL;DR本文提出了一种利用语言模型生成词汇变体、对抗性过滤和人工验证相结合的方法扩展现有的 Bias Benchmark for NLI (BBNLI) 测评数据集为 BBNLI-next，并介绍了能够区分模型误差类型的倾向度（bias）测量标准，说明了现有偏见分数存在的不足并提出了考虑到促进 / 反对刻板印象倾向和模型脆弱性的倾向度测量标准。

Abstract

Auditing unwanted social bias in language models (LMs) is inherently hard due to the multidisciplinary nature of the work. In addition, the rapid evolution of LMs can make benchmarks irrelevant in no time. bias auditing

language models bias auditing nli bias measures model brittleness

发现论文，激发创造

针对词汇数据集偏差提高 NLI 模型的鲁棒性

本文探讨了深度学习模型在自然语言推理方面存在数据偏见的现象，并提出了数据级和模型级去偏见的方法，实验表明采用正交性方法可以更好地去偏见且保持高准确率。

May, 2020

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023

稳健自然语言推理中的模型无关去偏策略的实证研究

本文探索了多种方法使自然语言推理模型具有鲁棒性，包括模型去偏，数据增强等，并提供了性能较好的模型集成方法。

Oct, 2020

通过建模语料库中的偏见进行端到端偏见缓解

本文提出了两种学习策略来训练神经模型，更加稳健，并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差，通过 down-weighting 有偏差的例子，使基础模型减少对偏差的依赖。实验表明，我们的去偏差方法在所有设置中都显著提高了模型的稳健性，并且更好地迁移到其他文本蕴涵数据集上。

Sep, 2019

偏见中和框架：用偏见智商（BiQ）衡量大型语言模型中的公平性

本文介绍了综合偏差中性化框架（CBNF），该框架创新性地对大型语言模型（LLMs）中的偏见进行量化和减轻，通过引入称为 BiQ 的新指标来检测、度量和减轻 LLMs 中的种族偏见，而无需依赖人口统计注释。此外，论文还展示了 Latimer AI 对比 ChatGPT 3.5 的详细分析，揭示了 Latimer AI 通过有针对性培训和精细的偏见缓解策略，在检测种族、文化和性别偏见方面的效果。

Apr, 2024

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

借助偏见来抗衡偏见：通过放大数据集偏差来提高模型的稳健性

通过引入一个偏差放大的训练集和一个反偏袒的测试集来评估模型的性能，我们提出为了开发对这些偏差具有稳健性的模型，应该将数据集的偏差放大。实验表明，这种评估体系对模型来说比原始的数据拆分和手工制作的挑战集都更具挑战性。

May, 2023

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024