Oct, 2023

语言模型生成器与验证器一致性的基准评估与改进

TL;DR我们提出了一种测量生成和验证之间一致性的框架,并称之为生成-验证器一致性(GV-consistency),发现就连最先进的语言模型GPT-4在76%的时间内也只有GV一致性。为了提高语言模型的一致性,我们提出根据GV一致性进行筛选的生成器和验证器响应的精调方法,称为一致性精调。我们发现,这种方法将Alpaca-30B的GV一致性从60%提高到93%,这种改进还会推广到未见任务和领域(例如,对于正向样式转换的GV一致性推广到幽默等未见样式)。除了提高一致性外,在不使用任何标记数据的情况下,一致性精调还提高了生成器质量和验证器准确性。在包括数学问题、知识密集型问答和指示遵循在内的6个任务上评估,我们的方法在所有任务上将生成器质量提高了16%,验证器准确性提高了6.3%。