大型预训练语言模型包含人类的偏见：什么是对与错

Mar, 2021

大型预训练语言模型包含人类的偏见：什么是对与错

Large Pre-trained Language Models Contain Human-like Biases of What is Right and Wrong to Do

Patrick Schramowski, Cigdem Turan, Nico Andersen, Constantin A. Rothkopf, Kristian Kersting

TL;DR该研究指出近期基于 transformer 的大型语言模型（LMs）例如 BERT, GPT-2/3，虽然在许多 NLP 任务中表现出色，但是这些 LMs 训练于未过滤的语料库会出现偏差行为。同时，该研究证明这些 LMs 也包含类似于人类的伦理和道德规范，这种 “道德方向” 运用 PCA 等技术可以减弱甚至消除不当的行为，以排除生产有害的信息，该研究应用在 RealToxicityPrompts 测试中展示了这个道德方向可以引导模型产生符合伦理要求的文本。

Abstract

Artificial writing is permeating our lives due to recent advances in large-scale, transformer-based language models (LMs) such as BERT, its variants, GPT-2/3, and others. Using them as pre-trained models and fine-tuning them for specific tasks, researchers have extended state of the ar

language models nlp tasks biases ethical norms toxicity

发现论文，激发创造

多语言使用对语言模型的道德偏见产生影响

本文探讨了预训练的多语言语言模型是否会从英语中捕捉道德规范，并将其强加在其他语言中，以及它们是否在某些语言中表现出随机且潜在有害的信念。研究还在多语言模型上应用了 MoralDirection 框架，分析了在过滤的平行字幕语料库上的模型行为，并将模型应用于道德基础调查问卷，比较不同国家的人类反应。实验表明，预训练的多语言语言模型确实会编码不同的道德偏见，但这些偏见不一定对应于人类观点的文化差异或共性。

Nov, 2022

道德模仿：大型语言模型生成符合政治身份的道德辩护

利用 Moral Foundations 理论探究 GPT-3 在政治身份提示下是否会复制与特定政治群体相关联的道德偏见。结果表明大型语言模型确实会在提示政治身份后生成反映相应道德偏见的文本，这种道德模仿既可能有益社会，也可能破坏社会。

Sep, 2022

BERT 有道德指南：提升机器的伦理和道德价值

该研究证明了通过应用机器学习算法从自然语言文本中提取道德和伦理判断，BERT 可以提高机器的道德价值观和伦理价值观的准确性，并且进一步使其能够为 Moral Choice Machine 提供更准确印记的道德选择和伦理价值。

Dec, 2019

大型 GPT 模型在语言表示中发现道德维度了吗？句子嵌入的拓扑研究

我们研究了 Chat-GPT 的基础语言模型中神经活动的拓扑结构，并分析了其相对于公平性的度量标准。我们开发了一种新方法，通过计算一种公平性度量标准来理解人类对公平性的评估因素，并通过与此度量标准相关的热力图对简单复形进行着色，从而产生可读的高维句子流形的可视化结果。我们的研究结果表明，基于 GPT-3.5 的语言模型的句子嵌入可以分解为公平和不公平道德判断对应的两个子流形，这表明 GPT 基于语言模型在其表示空间中发展了道德维度，并在其训练过程中引发了对公平性的理解。

Sep, 2023

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

利用大型语言模型进行道德教育与发展研究的潜在益处

本文回顾了最近发表的关于 LLMs 在道德教育和发展研究中的问题，涵盖了 LLMs 的新功能特性，如情境学习和思维链以及在解决伦理困境时的表现及其潜在意义和影响。

Jun, 2023

加强人工智能中的道德界限：提升大型语言模型安全的高级策略

通过引入多方面的方法，包括过滤敏感词汇、检测角色扮演、实施自定义规则引擎和扩展到各种大型语言模型衍生物，我们解决了大型语言模型在道德、安全和隐私方面的挑战，并且保持了高性能。这项研究为平衡问答系统的效率与用户隐私和道德标准提供了一个框架，确保了更安全的用户体验并增加了对 AI 技术的信任。

Jan, 2024

诊断和去偏 GPT2 中基于语料库的政治偏见和侮辱

研究探讨了诊断 - 去偏见方法在减少侮辱和政治偏见等两种附加偏见方面的效力，为调查人工智能与人类互动的道德和社会影响不断努力做出贡献。

Nov, 2023

从预训练数据到语言模型到下游任务：跟踪导致不公正 NLP 模型的政治偏见

本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见，以及在预训练数据中表现出政治（社会，经济）偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向，这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中，本研究讨论了这些发现对 NLP 研究的影响，并提出了减轻不公平的未来方向。

May, 2023