Dec, 2023

对齐器:当对齐大型语言模型时,一个全局令牌等于数百万个参数

TL;DRAligner 是一种参数高效的微调方法,通过构建一组全局共享的可调节的令牌来修改每一层的注意力,即使仅使用一个包含 5000 个参数的令牌,Aligner 仍然可以与需要数百万个参数的 LoRA 等最先进的 LLM 适应方法表现相当好。这个方法除了在参数效率上的巨大改进外,还提供了对 LLM 内部机制的宝贵见解,这个发现有望促进对 LLM 机制理解和价值对齐的新研究。