提升小型多模态推理模型的能力以与更大的模型相匹配:自一致性训练
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023
多模态推理是实现类似人类智能的人工智能系统的关键组成部分,本文介绍了多模态链式思维(CoT)技术,并提出 COACO-MMRD 数据集,通过全面评估不同方法,提供了有价值的见解和创新技术,包括多跳跨模态注意力和句级对比学习,以增强图像和文本编码器的性能,通过广泛的实验证明了所提出数据集和技术的有效性,为推进多模态推理提供了新的视角。
Jul, 2023
利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试,证明思路链在语言模型中的实用性,并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界;证明与人类类似,从解释中受益,可以借少训练数据实现相同的性能
Sep, 2022
利用链式思维和视觉问答技术,通过评估文本嵌入方法和视觉嵌入方法的有效性,研究如何提高深度学习模型在解决多项选择问题方面的准确性,实验结果显示这些方法在增强推理和问答能力方面具有潜力。
Dec, 2023
通过检查中间层解码的潜在预测的一致性,我们提出了内部一致性作为模型信心的度量,这有效地区分了正确和错误的推理路径,并通过加权具有高内部一致性的推理路径来调整链式推理,从而显著提高了推理性能。我们的结果表明,内部表示的使用可以将 LLMs 自我评估的潜力展现出来。
May, 2024
通过多语言推理一致性研究,我们构建了第一个大规模的多语言数学推理数据集 mCoT-MATH,然后引入多语言 CoT 指令调节以提高模型的推理能力和一致性。我们的 7B 参数模型 mCoT 在各种语言上展现出惊人的一致性,并且在性能上优于或与更大规模的闭源和开源模型相媲美。
Jun, 2024
提出了一种名为 “Mixture of Rationales (MoR)” 的新型多模态推理方法,通过混合多个推理证据来解决零样本视觉问答问题,并结合 “Vision-and-Language Pre-trained Models (VLPM)” 使用冻结模型来动态生成、检索和融合多模态想法,在 NLVR2 和 OKVQA 两个具有挑战性的 VQA 数据集上取得了较大的准确率提升。
Jun, 2024
我们提出了一种新的多模态链式思考推理方法,通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示,提高多模态链式思考推理的复杂推理能力,从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。
Dec, 2023
提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought(CoT)模型,它使用教师模型生成的合理解释来学习学生模型,并使用对抗性约束来保证学生模型保持一致性和反事实推理,实验结果表明,这种方法可以更好地生成有利于提高性能的 CoT 解释。
May, 2023
使用检索机制动态自动选择基于跨模态相似性的示例,以提升多模态推理中大型语言模型的性能。对各类示例进行分组并分别从不同组中检索示例,以增加示例的多样性。通过一系列实验,我们证明了我们的方法在多模态推理任务中取得了显著的性能改进。
Dec, 2023