镜子中的偏见：大型语言模型的观点是否对自身的对抗攻击稳健？

Oct, 2024

镜子中的偏见：大型语言模型的观点是否对自身的对抗攻击稳健？

Bias in the Mirror : Are LLMs opinions robust to their own adversarial attacks ?

Virgile Rennard, Christos Xypolopoulos, Michalis Vazirgiannis

TL;DR本文针对大型语言模型（LLMs）在与自身对抗时的偏见稳健性进行研究，填补了以往研究的空白。我们提出了一种新方法，让两个LLM进行自我辩论，从而评估偏见的持久性及模型在误信息和有害观点转变中的脆弱性。实验结果揭示了偏见在不同语言和文化背景下的持久性和灵活性，具有重要的研究和应用价值。

Abstract

Large Language Models (LLMs) inherit biases from their training data and alignment processes, influencing their responses in subtle ways. While many studies have examined these biases, little work has explored their Rob

发现论文，激发创造

呢翻叭咩意？揭露語言模型表達中的偏好偏見

大型语言模型是否表现出社会人口统计学偏见，即使他们拒绝回答？通过探索上下文嵌入，并研究这种偏见是否被编码在其潜在表示中，我们提出了一种逻辑Bradley-Terry探测器，从单词的隐藏向量预测LLMs中的单词对偏好。我们在三个偏好配对任务和十三个LLMs上首先验证了我们的探测器，在测试隐性联系的标准方法（WEAT）中，我们的错误率相对于WEAT提高了27%。我们还发现单词对偏好在中间层中最有效。接下来，我们将训练在无害任务上的探测器（例如，选择更大的数字）转移到有争议的任务上（比较民族、政治、宗教和性别），以检查国籍、政治、宗教和性别方面的偏见。我们观察到对于所有目标类别都存在大量偏见：例如，Mistral模型在不回答的情况下，暗示欧洲优于非洲、基督教优于犹太教、左翼优于右翼政治。这表明指示微调不一定能够削弱上下文嵌入的偏见。我们的代码库位于此 https URL

Nov, 2023

辩论中LLM仿真的系统偏差

近期自然语言处理的进展，特别是大型语言模型（LLMs）的出现，为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而，LLMs是复杂的统计学习器，缺乏直接的演绎规则，因此容易产生意想不到的行为。本研究突出了LLMs在模拟人类互动方面的局限性，特别关注LLMs在模拟政治辩论方面的能力。我们的发现表明，尽管被指示从特定的政治角度进行辩论，LLM代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离，似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果，该方法使我们能够操纵LLM内的偏见，并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性，以开发帮助代理克服这些偏见的方法，是创造更现实模拟的关键一步。

Feb, 2024

欺骗以启蒙：诱导LLMs自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为LLMs配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知LLMs它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高LLMs识别和解决偏见的能力。这种改进归因于LLMs的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少LLMs输出偏见的新方法。该方法涉及将LLMs置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理AI系统的努力作出了有价值的贡献。

Apr, 2024

大型语言模型中的偏见解读：一种基于特征的方法

大型语言模型（LLMs）具有卓越的性能，在各种自然语言处理（NLP）任务中表现出色。本文通过一种新颖的基于特征的分析方法研究了LLMs内部偏见的传播。我们的发现揭示了LLMs中偏见的复杂性质并强调了定制的去偏方法的必要性，为有效缓解偏见机制和途径提供了更深入的理解。

Jun, 2024

从心理测量学角度攻击大型语言模型以评估隐性偏见

大型语言模型（LLMs）的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击，以评估LLMs对特定群体的潜在偏见。我们提出了三种攻击方法（伪装、欺骗和教授），并构建了四种常见偏见类型的评估数据集。对典型LLMs进行了广泛评估，结果显示：1）所有三种攻击方法都非常有效，特别是欺骗攻击；2）GLM-3在防御我们的攻击方面表现最佳，相比之下GPT-3.5和GPT-4则较差；3）当以一种偏见类型进行教授时，LLMs可能会输出其他类型的内容。我们的方法提供了一种可靠而有效的评估LLMs潜在偏见的方式，并有助于评估LLMs的潜在伦理风险。

Jun, 2024

大规模语言模型真的没有偏见吗？通过越狱提示评估偏见诱导的对抗鲁棒性

该研究探讨了最近的大型语言模型中存在的偏见，分析其对公正性和可靠性的影响，并研究了如何利用已知的提示工程技术来揭示大型语言模型的隐藏偏见，并对其进行了针对偏见引诱而设计的越狱提示的对抗强度测试。通过对不同规模的最广泛使用的大型语言模型进行广泛实验，证实了尽管这些模型具有先进的能力和复杂的对齐过程，但仍然可以操纵它们产生有偏见或不适当的回应，强调了加强缓解技术以解决这些安全问题的重要性，朝着更可持续和包容的人工智能发展。

Jul, 2024

政治偏见对大型语言模型在立场分类中表现的影响研究

本研究探讨大型语言模型（LLMs）在立场分类任务中体现的政治偏见，填补了对这类偏见如何影响模型性能的研究空白。通过分析三个数据集和七个LLM，我们发现LLMs在分类政治性立场时表现出显著的性能差异，尤其在目标陈述模糊时表现较差。这一发现为理解LLMs在特定任务中的偏见提供了重要见解。

Jul, 2024

解码偏见：自动化方法与大型语言模型评判者对性别偏见检测

本研究针对大型语言模型（LLMs）在偏见检测方面的缺乏标准和成本高昂问题，提出了一种自动生成对抗性提示的创新方法，以揭示模型的偏见反应。研究表明，所提出的LLM作为评判者的评估指标与人类评判一致，显示出其在偏见评估中的潜力和重要性。

Aug, 2024

大型语言模型作为标注者的偏见：政党提示对标注决策的影响

本文研究了大型语言模型（LLM）作为标注者时存在的偏见，特别是政党提示对标注决策的影响。通过重复2018年的实验，研究发现LLM在评判政治陈述时不仅运用政党信息，还反映出其训练数据的偏见，且LLM即使在面对中间偏左和偏右的政党陈述时也显示出明显偏见。这一发现表明LLM的标注决策存在系统性问题，对使用LLM进行政治内容分析的影响深远。

Aug, 2024

大型语言模型中的偏见相似性

本研究解决了不同大型语言模型（LLMs）之间偏见相似性缺乏比较的研究空白。通过分析十个开源和闭源的LLM，研究发现微调对输出分布没有显著影响，不同模型之间的偏见表现在功能上有显著差异，且存在训练数据泄露的隐患。这一发现为理解LLMs的行为以及在实际应用中的潜在风险提供了重要见解。

Oct, 2024