OpinionGPT: 模拟指导调整的 LLMs 中的显式偏见建模

Sep, 2023

OpinionGPT: 模拟指导调整的 LLMs 中的显式偏见建模

OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs

Patrick Haller, Ansar Aynetdinov, Alan Akbik

TL;DR通过 OpinionGPT 演示，我们展示了 OpinionGPT 网页应用，用户可以提问并选择他们希望调查的各种偏见。通过对代表不同偏见的文本进行 fine-tuning，提供模型答案的比较，以增强透明度和显性化地处理偏见。

Abstract

instruction-tuned large language models (LLMs) have recently showcased remarkable ability to generate fitting responses to natural language instructions. However, an open research question concerns the inherent biases

instruction-tuned large language models inherent biases de-biasing models opiniongpt bias-aware model

发现论文，激发创造

受指导的偏见：经过指导调节的语言模型呈现出应急认知偏差

通过检验三种认知偏见（假象效应、确定性效应和信仰偏误）在经过指导调优的语言模型中的存在程度，我们的研究提供了证据表明，这些经过调优的模型表现出过去预训练模型中不存在或较不明显的偏见，进一步突出了这些偏见存在于各种模型中的事实，特别是那些经过指导调优的模型，如 Flan-T5，GPT3.5 和 GPT4，这一研究对认识指导调优的语言模型中的认知偏见是至关重要的，从而对更可靠、无偏的语言模型的发展具有重要意义。

Aug, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

诊断和去偏 GPT2 中基于语料库的政治偏见和侮辱

研究探讨了诊断 - 去偏见方法在减少侮辱和政治偏见等两种附加偏见方面的效力，为调查人工智能与人类互动的道德和社会影响不断努力做出贡献。

Nov, 2023

LLM 响应中的有意偏见

本研究旨在有意地引入偏见到大型语言模型的响应中，以创建特定的互动媒体角色。我们探索了 Falcon-7b 等开源模型与 Open AI 的 GPT-4 模型之间的差异，并对两个系统的响应进行了一些量化比较。我们发现，GPT-4 的专家混合模型中的防护措施虽然在确保 AI 的整体对齐方面很有用，但在构建具有各种不寻常观点的角色时却具有负面影响。本研究旨在为未来探索大型语言模型中的有意偏见奠定基础，以便这些实践可以应用于创意领域和新型媒体。

Nov, 2023

从心理测量学角度攻击大型语言模型以评估隐性偏见

大型语言模型（LLMs）的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击，以评估 LLMs 对特定群体的潜在偏见。我们提出了三种攻击方法（伪装、欺骗和教授），并构建了四种常见偏见类型的评估数据集。对典型 LLMs 进行了广泛评估，结果显示：1）所有三种攻击方法都非常有效，特别是欺骗攻击；2）GLM-3 在防御我们的攻击方面表现最佳，相比之下 GPT-3.5 和 GPT-4 则较差；3）当以一种偏见类型进行教授时，LLMs 可能会输出其他类型的内容。我们的方法提供了一种可靠而有效的评估 LLMs 潜在偏见的方式，并有助于评估 LLMs 的潜在伦理风险。

Jun, 2024

大型语言模型的上下文偏见抑制

大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Sep, 2023

探究 OpenAI GPT3 中的偏见与互联网教育

本研究探讨了自然语言处理模型中偏见及其避免技术的现有文献，包括为何首先解决偏见问题；此外，文中分析了这些技术在比过去更大的新型模型下的表现。为了实现这些目标，本文作者使用目前可由消费者使用的最大 NLP 模型 GPT3 进行了研究。通过使用 GPT3 开发申请人跟踪系统进行测试，其中主要关注了性别偏见而不是所有或多种类型的偏见。最终，考虑和测试了当前的减轻技术以测试其功能程度。

Jun, 2023

辩论评估中大型语言模型的实证分析

使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究，发现 LLMs 在评估上的表现超过人类，并超过基于大量数据集微调的最先进方法。同时，研究了 LLMs 中存在的偏见，包括位置偏见、词汇偏见和顺序偏见，这可能会影响它们的评价判断。我们的发现表明，无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见，这归因于提示设计。此外，在 GPT-3.5 和 GPT-4 中也存在词汇偏见，特别是当含义具有数字或顺序的标签集时，强调在提示设计中需谨慎选择标签的表述。此外，我们的分析表明，这两个模型倾向于认为辩论的结束方是获胜方，暗示存在讨论末尾的偏见。

May, 2024

诱导政治偏见使语言模型预测党派对争议的反应

通过使用大规模语言模型（LLMs）来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论，本研究创新性地采用了一个指导调整的 LLM，以反映一系列政治意识形态。我们提出了一个综合的分析框架，包括党派偏见差异评估和党派倾向预测，以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性，但在立场检测方面存在一些挑战，突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性，特别适用于需要敏锐意识到政治偏见的应用，为该领域做出了重要贡献。

Nov, 2023

以多样的政治观点对齐大型语言模型

通过使用 100,000 个瑞士国会候选人的评论，将大型语言模型与不同政治观点对齐，从而克服 ChatGPT 等商业模型的政治偏见，并提出了使用这种模型生成多个观点的平衡概述的方法。

Jun, 2024