Mar, 2021

大型预训练语言模型包含人类的偏见:什么是对与错

TL;DR该研究指出近期基于 transformer 的大型语言模型(LMs)例如 BERT, GPT-2/3,虽然在许多 NLP 任务中表现出色,但是这些 LMs 训练于未过滤的语料库会出现偏差行为。同时,该研究证明这些 LMs 也包含类似于人类的伦理和道德规范,这种 “道德方向” 运用 PCA 等技术可以减弱甚至消除不当的行为,以排除生产有害的信息,该研究应用在 RealToxicityPrompts 测试中展示了这个道德方向可以引导模型产生符合伦理要求的文本。