Nov, 2023

精准指点,而非批评:通过精细的可操作反馈改进大型语言模型

TL;DR使用细粒度的可行操作反馈,基于学习的错误定位模型预测的错误类型、错误位置和严重程度,提出了 FITO(一种推理时间优化方法)来进行迭代改进,通过一个生成改进输出的改进模型,迭代地结合反馈。我们在三个文本生成任务上进行了实验,包括机器翻译、长篇问答(QA)和主题摘要,在单次迭代的改进中,中英翻译和英德翻译分别观察到 0.8 和 0.7 的 MetricX 增益,问答和主题摘要分别观察到 4.5 和 1.8 的 ROUGE-L 增益。通过我们的模拟退火算法,我们看到进一步的质量改进,包括与基准方法相比高达 1.7 的 MetricX 改进。