Jun, 2024

ARES:交替强化学习和监督微调,通过多样化的AI反馈提升多模态链式思维推理

TL;DR大型多模型 (LMMs) 在理解人类指令方面表现出色,并在各种任务中展现出显著的结果。通过强化学习来自人类反馈 (RLHF) 和人工智能反馈 (RLAIF) 进一步完善了 LLMs,通过将其与特定偏好对齐。我们提出了一种两阶段算法 AREAS,交替使用强化学习和监督微调。我们请求 Teacher 对每个句子对于解决问题的贡献进行评分,这种句子级别的反馈使得我们可以考虑个别有价值的段落,为强化学习过程提供更精细的奖励。然后,我们要求 Teacher 在强化学习阶段纠正错误的推理。我们通过 SFT 对 RL 细调的模型进行稳定,以纠正重复单词和不完整句子等错误。我们对多模型数据集 ScienceQA 和 A-OKVQA 进行实验,以证明我们提议的有效性。ARES 合理推理与 GPT-4o 进行评估时的基准模型相比,获胜率约为 70%。此外,我们观察到改进的合理推理导致多模态数据集的推理答案准确性平均提高了 2.5%。