Mar, 2024
AXOLOTL: 通过协助自我消除大型语言模型输出的公正性
AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language Model Outputs
Sana Ebrahimi, Kaiwen Chen, Abolfazl Asudeh, Gautam Das, Nick Koudas
TL;DR通过 Axolotl,这一新颖的后处理框架,在不需要直接访问模型内部参数的情况下,与 LLMs 进行交互,通过类似零样本学习的三步过程识别偏见、提出解决方案并引导模型进行自我去偏差,从而降低计算成本并保持模型性能,为广泛应用和易于使用的 LLMs 去偏差工具提供了希望。