May, 2024

大型语言模型的因果可解释弹道

TL;DRLLMGuardaril 是一个新型的框架,结合因果分析和对抗学习,以获取大型语言模型中的无偏导向表示,从而将其引导到预期的属性,同时减少偏见。