利用细粒度自然语言反馈进行学习优化
本文中,我们对自然语言生成功能的输出质量提出问题,通过收集人类演示和信息反馈数据集DeFacto,我们进行了两项自然语言生成任务的研究,旨在通过实现信息反馈来提高自然语言生成模型的质量,改善与用户需求的匹配度。
Dec, 2022
为了解决大型语言模型在引文、正确性和流畅度方面存在的问题,本研究通过构建数据集、引入自动化反馈机制和反馈学习循环,成功提高了ChatGPT的引文和流畅度指标,并保持高水平的正确性。
Sep, 2023
近年来,大型语言模型展现出了令人瞩目的生成能力,但它们能判断自己生成的质量吗?我们提出了一种名为ART的推理与改进目标,通过提出必要的问题来决定何时应该改进模型的输出,并通过对改进和初始预测进行排名来确认或保留对改进的信任。在数学word问题和问答任务上,ART相较于自我改进的基线表现提高了5个百分点,并且更小的模型作为决策者显示出了使用更小模型进行改进决策的好处,作为经济高效的替代方法。
Nov, 2023
使用细粒度的可行操作反馈,基于学习的错误定位模型预测的错误类型、错误位置和严重程度,提出了FITO(一种推理时间优化方法)来进行迭代改进,通过一个生成改进输出的改进模型,迭代地结合反馈。我们在三个文本生成任务上进行了实验,包括机器翻译、长篇问答(QA)和主题摘要,在单次迭代的改进中,中英翻译和英德翻译分别观察到0.8和0.7的MetricX增益,问答和主题摘要分别观察到4.5和1.8的ROUGE-L增益。通过我们的模拟退火算法,我们看到进一步的质量改进,包括与基准方法相比高达1.7的MetricX改进。
Nov, 2023
自然语言处理社区开始让大规模语言模型(如GPT-4)扮演批评家以评估生成文本质量,大部分仅在特定数据集上训练特定规模的批判生成模型,我们认为缺乏对于基于语言模型评估模型的关键因素(如可扩展性特性)的全面调查,因此目前是否有潜力在实际场景中取代GPT-4的评估仍然没有结论;在本文中,我们提出了一种名为CritiqueLLM的新型批判生成模型,采用基于对话的提示方法用于高质量的参考/无参考评估数据,实验结果表明,我们的模型在评估性能上可以与GPT-4相媲美,尤其在系统级相关性上,甚至在具有挑战性的无参考环境中,在8个任务中有3个胜过GPT-4;我们进行详细分析以展示我们模型在生成批评质量方面的可扩展性特性,同时证明我们生成的批评可以作为可扩展反馈,直接提高LLM的生成质量。
Nov, 2023
该研究论文介绍了大型语言模型在接受用户反馈方面的问题,并提出了一个包括问答、机器翻译和电子邮件写作等任务的综合评估基准RefuteBench。研究发现,大型语言模型倾向于自身内部知识,并且在对话过程中逐渐遗忘用户的反馈,而回归到自己的回复,通过召回和重复提示的方式可以提高模型响应用户反馈的能力。
Feb, 2024
利用CriticBench评估和解析17个大型语言模型在生成、批评和纠正推理(即GQC推理)中的性能,发现GQC能力呈线性关系,批评训练显著增强性能,校正效果因任务而异,逻辑导向任务更容易纠正,模型大小增加可以减少GQC知识的不一致性,强模型在批评弱模型方面表现更好,而弱模型在自我批评方面却能出人意料地超过强模型,为大型语言模型的批评和自我改进研究提供了深入理解。
Feb, 2024
本研究解决了大型语言模型(LLM)生成自然语言解释(NLE)时的表现不佳问题。提出的交叉精炼方法通过两个LLM协同工作,一个生成解释,另一个提供反馈,实现了对初始解释的有效优化。实验结果表明,该方法在多个自然语言处理任务上优于基线模型Self-Refine,并且能够在较低效能的LLM上也达成良好效果。
Sep, 2024