Aug, 2023

对齐之毒

TL;DR通过实验证明,内容安全问题角度来看,对齐对指令调整模型的性能有负面影响,尤其是在各种推理基准测试中,通过有对齐的答案进行调整会使性能下降 4-33%。