Oct, 2023

从挫折中获益:通过错误分析对齐大型语言模型

TL;DR通过暴露大型语言模型存在的缺陷输出并进行彻底评估,该研究提出了一种根据错误分析的新型对齐策略,以完全理解其内部原因,并将有害回应转化为模型对齐的指令调整语料库,从而不仅使 LLMs 不再产生有缺陷的回应,还可训练其自我批评,并利用其判别有毒内容的内在能力,实验结果表明,该方法在安全指令跟踪方面优于传统对齐技术,同时保持卓越的效率。