BriefGPT.xyz
Dec, 2024
将文化条件的生成归因于预训练语料库
Attributing Culture-Conditioned Generations to Pretraining Corpora
HTML
PDF
Huihan Li, Arnav Goel, Keyu He, Xiang Ren
TL;DR
该研究解决了大型语言模型在开放式生成任务中的文化偏见问题,分析了预训练数据对生成结果的影响。提出的MEMOed框架揭示了模型对文化的生成是否源于记忆,发现高频文化的生成更倾向于使用记忆的符号,而低频文化则几乎没有生成。这一发现能推动更多关于模型在预训练数据上表现的研究。
Abstract
In open-ended
Generative Tasks
like narrative writing or dialogue, large
Language Models
often exhibit cultural biases, showing limited knowledge and generating templated outputs for less prevalent cultures. Rece
→