May, 2024

校准的自我奖励视觉语言模型

TL;DR大规模视觉 - 语言模型通过整合预先训练好的大型语言模型和视觉模型,通过自我奖励方法中引入视觉约束以减少幻觉,提高性能,在十个基准测试和任务中取得了 7.62% 的显著改进。