May, 2024

FLAME: 大型语言模型的事实感知对齐

TL;DR通过对 pre-trained large language models 进行 factual-aware SFT 和 factual-aware RL 的直接优化,使其在保持指令遵循能力的同时,输出更多真实的回应。