提升小型多模态推理模型的能力以与更大的模型相匹配：自一致性训练

Nov, 2023

提升小型多模态推理模型的能力以与更大的模型相匹配：自一致性训练

Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training

Cheng Tan, Jingxuan Wei, Zhangyang Gao, Linzhuang Sun, Siyuan Li...

TL;DR多模态推理中，理由生成对模型推理的准确性至关重要，本文提出了 MC-CoT，一种通过自相容性训练策略生成多个理由和答案，并通过投票选择最准确的方法，从而提高生成的理由的质量，改进多模态推理的准确性和鲁棒性。

Abstract

multimodal reasoning is a challenging task that requires models to reason across multiple modalities to answer questions. Existing approaches have made progress by incorporating language and visual modalities into a two-stage reasoning framework, separating →

multimodal reasoning rationale generation mc-cot self-consistency training model performance

发现论文，激发创造

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

增强类人多模态推理：一项新的具有挑战性的数据集和全面框架

多模态推理是实现类似人类智能的人工智能系统的关键组成部分，本文介绍了多模态链式思维（CoT）技术，并提出 COACO-MMRD 数据集，通过全面评估不同方法，提供了有价值的见解和创新技术，包括多跳跨模态注意力和句级对比学习，以增强图像和文本编码器的性能，通过广泛的实验证明了所提出数据集和技术的有效性，为推进多模态推理提供了新的视角。

Jul, 2023

学会阐述：基于思维链的多模态推理用于科学问答

利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试，证明思路链在语言模型中的实用性，并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界；证明与人类类似，从解释中受益，可以借少训练数据实现相同的性能

Sep, 2022

实现统一的多模态推理框架

利用链式思维和视觉问答技术，通过评估文本嵌入方法和视觉嵌入方法的有效性，研究如何提高深度学习模型在解决多项选择问题方面的准确性，实验结果显示这些方法在增强推理和问答能力方面具有潜力。

Dec, 2023

瞄准内部一致性：对语言模型进行推理校准

通过检查中间层解码的潜在预测的一致性，我们提出了内部一致性作为模型信心的度量，这有效地区分了正确和错误的推理路径，并通过加权具有高内部一致性的推理路径来调整链式推理，从而显著提高了推理性能。我们的结果表明，内部表示的使用可以将 LLMs 自我评估的潜力展现出来。

May, 2024

mCoT: 多语言指导调整以提升语言模型的推理一致性

通过多语言推理一致性研究，我们构建了第一个大规模的多语言数学推理数据集 mCoT-MATH，然后引入多语言 CoT 指令调节以提高模型的推理能力和一致性。我们的 7B 参数模型 mCoT 在各种语言上展现出惊人的一致性，并且在性能上优于或与更大规模的闭源和开源模型相媲美。

Jun, 2024

多模态理性混合：视觉问题回答的多模式推理混合

提出了一种名为 “Mixture of Rationales (MoR)” 的新型多模态推理方法，通过混合多个推理证据来解决零样本视觉问答问题，并结合 “Vision-and-Language Pre-trained Models (VLPM)” 使用冻结模型来动态生成、检索和融合多模态想法，在 NLVR2 和 OKVQA 两个具有挑战性的 VQA 数据集上取得了较大的准确率提升。

Jun, 2024

多模态潜空间学习用于语言模型的思维链推理

我们提出了一种新的多模态链式思考推理方法，通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示，提高多模态链式思考推理的复杂推理能力，从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。

Dec, 2023

SCOTT: 自洽思维串讲压缩

提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的 CoT 解释。

May, 2023

大型语言模型的检索增强多模态思维链推理

使用检索机制动态自动选择基于跨模态相似性的示例，以提升多模态推理中大型语言模型的性能。对各类示例进行分组并分别从不同组中检索示例，以增加示例的多样性。通过一系列实验，我们证明了我们的方法在多模态推理任务中取得了显著的性能改进。

Dec, 2023