OpinionGPT: 模拟指导调整的 LLMs 中的显式偏见建模
通过检验三种认知偏见(假象效应、确定性效应和信仰偏误)在经过指导调优的语言模型中的存在程度,我们的研究提供了证据表明,这些经过调优的模型表现出过去预训练模型中不存在或较不明显的偏见,进一步突出了这些偏见存在于各种模型中的事实,特别是那些经过指导调优的模型,如 Flan-T5,GPT3.5 和 GPT4,这一研究对认识指导调优的语言模型中的认知偏见是至关重要的,从而对更可靠、无偏的语言模型的发展具有重要意义。
Aug, 2023
我们提出了一个名为 GPTBIAS 的偏见评估框架,它利用 LLMs 的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
Dec, 2023
研究探讨了诊断 - 去偏见方法在减少侮辱和政治偏见等两种附加偏见方面的效力,为调查人工智能与人类互动的道德和社会影响不断努力做出贡献。
Nov, 2023
本研究旨在有意地引入偏见到大型语言模型的响应中,以创建特定的互动媒体角色。我们探索了 Falcon-7b 等开源模型与 Open AI 的 GPT-4 模型之间的差异,并对两个系统的响应进行了一些量化比较。我们发现,GPT-4 的专家混合模型中的防护措施虽然在确保 AI 的整体对齐方面很有用,但在构建具有各种不寻常观点的角色时却具有负面影响。本研究旨在为未来探索大型语言模型中的有意偏见奠定基础,以便这些实践可以应用于创意领域和新型媒体。
Nov, 2023
大型语言模型(LLMs)的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击,以评估 LLMs 对特定群体的潜在偏见。我们提出了三种攻击方法(伪装、欺骗和教授),并构建了四种常见偏见类型的评估数据集。对典型 LLMs 进行了广泛评估,结果显示:1)所有三种攻击方法都非常有效,特别是欺骗攻击;2)GLM-3 在防御我们的攻击方面表现最佳,相比之下 GPT-3.5 和 GPT-4 则较差;3)当以一种偏见类型进行教授时,LLMs 可能会输出其他类型的内容。我们的方法提供了一种可靠而有效的评估 LLMs 潜在偏见的方式,并有助于评估 LLMs 的潜在伦理风险。
Jun, 2024
大型语言模型(LLMs)中存在的性别偏见令人担忧,但提出了一种无需访问模型参数的新方法,即通过手动设计的文本前言和职业描述句来有效抑制性别偏见,并且对下游任务性能影响最小。
Sep, 2023
本研究探讨了自然语言处理模型中偏见及其避免技术的现有文献,包括为何首先解决偏见问题;此外,文中分析了这些技术在比过去更大的新型模型下的表现。为了实现这些目标,本文作者使用目前可由消费者使用的最大 NLP 模型 GPT3 进行了研究。通过使用 GPT3 开发申请人跟踪系统进行测试,其中主要关注了性别偏见而不是所有或多种类型的偏见。最终,考虑和测试了当前的减轻技术以测试其功能程度。
Jun, 2023
使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究,发现 LLMs 在评估上的表现超过人类,并超过基于大量数据集微调的最先进方法。同时,研究了 LLMs 中存在的偏见,包括位置偏见、词汇偏见和顺序偏见,这可能会影响它们的评价判断。我们的发现表明,无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见,这归因于提示设计。此外,在 GPT-3.5 和 GPT-4 中也存在词汇偏见,特别是当含义具有数字或顺序的标签集时,强调在提示设计中需谨慎选择标签的表述。此外,我们的分析表明,这两个模型倾向于认为辩论的结束方是获胜方,暗示存在讨论末尾的偏见。
May, 2024
通过使用大规模语言模型(LLMs)来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论,本研究创新性地采用了一个指导调整的 LLM,以反映一系列政治意识形态。我们提出了一个综合的分析框架,包括党派偏见差异评估和党派倾向预测,以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性,但在立场检测方面存在一些挑战,突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性,特别适用于需要敏锐意识到政治偏见的应用,为该领域做出了重要贡献。
Nov, 2023
通过使用 100,000 个瑞士国会候选人的评论,将大型语言模型与不同政治观点对齐,从而克服 ChatGPT 等商业模型的政治偏见,并提出了使用这种模型生成多个观点的平衡概述的方法。
Jun, 2024