Oct, 2023

N-Critics: 大型语言模型的自我提升与评论家集成

TL;DR提出了一种用于改善大型语言模型的自我纠正机制,通过批评家与模型自己的反馈对模型输出进行精炼,以减轻毒性和事实幻觉等问题。通过人类行为的启发,探讨了大型语言模型是否可以模仿人类的自我纠正过程,即借助自评和寻求他人意见来完善对复杂主题的理解。该方法与特定模型无关,可应用于各个领域,通过解决公平性、偏见和鲁棒性问题,提高可信度。我们始终观察到大型语言模型在减少毒性和纠正事实错误方面的性能改进。