Feb, 2024

语言模型通过外部指标反馈自我提升

TL;DR通过 Proxy Metric-based Self-Refinement,我们引入了一种方法来帮助 Large Language Models(LLMs)通过外部度量反馈逐步在质量关键维度上优化自己的回复,从而得到更好的最终回复。我们将 ProMiSe 应用于开源语言模型 Flan-T5-XXL 和 Llama-2-13B-Chat,并在基于文档的问答数据集 MultiDoc2Dial 和 QuAC 上评估其性能,证明了自我优化可以提高回复质量。此外,我们还展示了通过 ProMiSe 生成的合成对话数据对 Llama-2-13B-Chat 进行微调,相比零 - shot 基准和人工注释数据的监督微调模型,得到了显著的性能改进。