May, 2023

利用对比输入解码揭示大型语言模型中的偏见

TL;DR提出对比性输入解码算法 (CID) 来量化大型语言模型对不同输入的行为变化,发现标准解码策略未能检测到的特定语境偏差。