去偏见的大规模语言模型仍将穆斯林与独特的暴力行为相关联

Aug, 2022

去偏见的大规模语言模型仍将穆斯林与独特的暴力行为相关联

Debiased Large Language Models Still Associate Muslims with Uniquely Violent Acts

Babak Hemmatian, Lav R. Varshney

TL;DR研究表明，GPT-3模型在被问及穆斯林时生成暴力文本补全的倾向性比基督徒和印度教徒更强，但最近的两项预注册实验尝试均未能证明其存在严重的偏差，而更换为消除偏见和有毒输出的Fine-tuned Instruct Series版本的GPT-3模型中则表现出了最小的偏见。然而，使用与宗教相关的常见名称则显著增加了暴力文本补全，也暴露出更强的二阶偏见，而无论提示格式如何，宗教特定的暴力主题均包含高度冒犯性的观点。因此，我们需要对大型语言模型进行更多的去偏见工作，以消除高阶模式和联想。

Abstract

Recent work demonstrates a bias in the gpt-3 model towards generating violent text completions when prompted about muslims, compared with

发现论文，激发创造

利用情境维度在社交媒体上建模伊斯兰极端主义交流：宗教、意识形态和仇恨

该研究通过基于语境维度的计算方法及相关知识资源，对推特上的极端主义内容进行了深入分析，开发出一种可靠的算法来识别和反制网络极端化。与竞争算法相比，该算法能够将误标记减少10.2%。

Aug, 2019

大型语言模型中持续存在的反穆斯林偏见

本文研究表明，目前最先进的语境化语言模型 GPT-3 存在对穆斯林的暴力偏见，我们对此进行了多方面的探讨和量化，并提出对抗性文本提示来缓解这种偏见。

Jan, 2021

GPT模型中存在对穆斯林暴力的偏见

GPT-3存在针对穆斯林的暴力生成倾向和反穆斯林偏见，复制实验表明去偏置措施在新模型中不再有效，加强高级关联的去偏置需求。

Oct, 2023

诊断和去偏GPT2中基于语料库的政治偏见和侮辱

研究探讨了诊断-去偏见方法在减少侮辱和政治偏见等两种附加偏见方面的效力，为调查人工智能与人类互动的道德和社会影响不断努力做出贡献。

Nov, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为GPTBIAS的偏见评估框架，它利用LLMs的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

辩论评估中大型语言模型的实证分析

使用GPT-3.5和GPT-4等高级大型语言模型对辩论评估进行研究，发现LLMs在评估上的表现超过人类，并超过基于大量数据集微调的最先进方法。同时，研究了LLMs中存在的偏见，包括位置偏见、词汇偏见和顺序偏见，这可能会影响它们的评价判断。我们的发现表明，无论是GPT-3.5还是GPT-4都存在一致偏向于第二个候选回答的偏见，这归因于提示设计。此外，在GPT-3.5和GPT-4中也存在词汇偏见，特别是当含义具有数字或顺序的标签集时，强调在提示设计中需谨慎选择标签的表述。此外，我们的分析表明，这两个模型倾向于认为辩论的结束方是获胜方，暗示存在讨论末尾的偏见。

May, 2024

从心理测量学角度攻击大型语言模型以评估隐性偏见

大型语言模型（LLMs）的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击，以评估LLMs对特定群体的潜在偏见。我们提出了三种攻击方法（伪装、欺骗和教授），并构建了四种常见偏见类型的评估数据集。对典型LLMs进行了广泛评估，结果显示：1）所有三种攻击方法都非常有效，特别是欺骗攻击；2）GLM-3在防御我们的攻击方面表现最佳，相比之下GPT-3.5和GPT-4则较差；3）当以一种偏见类型进行教授时，LLMs可能会输出其他类型的内容。我们的方法提供了一种可靠而有效的评估LLMs潜在偏见的方式，并有助于评估LLMs的潜在伦理风险。

Jun, 2024

孟加拉语中大型语言模型的社会偏见：性别和宗教偏见的实证研究

我们研究了大型语言模型（LLMs）在孟加拉语中生成输出时存在的两种社会偏见，并提出了针对孟加拉语中偏见检测的两种探测技术，为偏见测量基准提供了一个策划数据集，这是我们所知道的首个涉及孟加拉语LLMs偏见评估的研究。

Jul, 2024

探索大型语言模型中的孟加拉宗教方言偏见与评估视角

本研究解决了大型语言模型在对孟加拉地区宗教敏感主题时所体现的偏见和刻板印象问题，尤其关注印度教和穆斯林方言。通过不同的实验，我们比较了ChatGPT、Gemini和Microsoft Copilot在这两种方言上的表现，发现了社会偏见的差异，从而为促进大型语言模型的公平性提供了基础。

Jul, 2024

评估大型语言模型在在线极端主义研究中的应用：识别、解释与新知识

本研究应对美国暴力极端主义日益增多的挑战，提出有效的自动化工具以检测和限制极端意识形态在网上的传播。通过评估BERT和GPT模型在识别和分类在线极端主义帖子中的表现，研究发现GPT模型优于BERT，在确定极端主义内容方面具有更大的潜力，建议未来研究应关注人机互动，以优化这些模型的应用。

Aug, 2024