- POEM:增强大型语言模型的多模态推理的交互式提示优化
大型语言模型的多模态内容理解和推理能力取得了令人印象深刻的成果,我们提出了一种名为 POEM 的视觉分析系统,以促进对 LLMs 的多模态推理性能的有效提示工程。该系统支持用户通过多样化的示例和指导原则,循环迭代地设计和改进提示,以实现模型 - 多模态知识图谱下的多模态推理
提出了一种利用多模态知识图 (MMKGs) 进行多模态推理的方法 (MR-MKG),通过利用多模态知识图 (MMKGs) 跨模态地学习丰富的语义知识,显著提高了大型语言模型 (LLMs) 在多模态推理中的能力。通过在仅使用 LLM 参数的 - 一图胜过一万言:蓝图论述多模态推理的图
本文提出了一种名为 “图像蓝图辩论” 的顶 - 下述式多模式推理方法,解决了多分类结果过于概括和由图像引入的分散注意力的挑战,并在科学问答和 MMBench 中实现了最先进的结果。
- 单幅图像中的一切:大型多模态模型是图像学习器
该论文介绍了一种新的上下文学习机制 ——In-Image Learning(I²L),将示范示例、视觉线索和指令结合到一张图像中,以增强 GPT-4V 的能力,并通过图像处理、理解和推理能力来整合所有信息,从而避免了复杂图像的文本描述不准确 - BBA:大型视觉语言模型的双模行为对齐推理
我们引入了 Bi-Modal Behavioral Alignment (BBA) 提示方法,旨在最大程度地发挥 DSL 在增强复杂的多模态推理任务中的潜力,通过为视觉和 DSL 表示创建分离推理链条,并通过解决任何不一致性来使这些链条对齐 - 问题感知视觉变换器用于多模态推理
QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法,通过将问题感知能力直接嵌入到视觉编码器中,实现动态视觉特征,并且可以有效地应用于各种多模态架构,提高对视觉和场景文本的理解能力。
- 多模态大型语言模型(MLLMs)的推理能力探索:多模态推理中新兴趋势的综述
综合评估了多模态大语言模型的现有评估协议,分类和说明了多模态大语言模型的前沿,介绍了多模态大语言模型在推理密集型任务上的最新趋势,并讨论了当前的实践和未来的发展方向。
- 提升小型多模态推理模型的能力以与更大的模型相匹配:自一致性训练
多模态推理中,理由生成对模型推理的准确性至关重要,本文提出了 MC-CoT,一种通过自相容性训练策略生成多个理由和答案,并通过投票选择最准确的方法,从而提高生成的理由的质量,改进多模态推理的准确性和鲁棒性。
- DDCoT: 多模式语言模型中的责任区分思维链提示
AI 系统的一个长期目标是像人类一样进行复杂的多模态推理。最近,大型语言模型(LLMs)通过利用思维链(CoT)在仅使用语言模态上取得了显著的多步推理进展,然而,将这些进展应用于多模态情境引入了更高的挑战,其中包括但不限于对劳动密集型注释的 - 增强类人多模态推理:一项新的具有挑战性的数据集和全面框架
多模态推理是实现类似人类智能的人工智能系统的关键组成部分,本文介绍了多模态链式思维(CoT)技术,并提出 COACO-MMRD 数据集,通过全面评估不同方法,提供了有价值的见解和创新技术,包括多跳跨模态注意力和句级对比学习,以增强图像和文本 - ECHo:基于人类中心推理的事件因果推断
该论文介绍了一种基于真实世界人类推断信息的诊断数据集 ECHo,旨在通过理论设计闭环链来评估当前人工智能系统的信息推理能力。该系统在零 - shot 视觉和语言理解中融合了各类大型基础模型,并进一步通过三个不同的任务来证明 ECHo 作为一 - 面向个性化人类中心的多模态推理:一项新任务
本研究通过构建新的基于《生活大爆炸》电视节目的数据集,并引入 MBTI 个性化能力,提出了一种新的人本多模态推理 (Personality-aware HMR) 任务及相应的基准方法,并在此基础上进一步提出了一项人格预测多模态推理 (Per - MM-REACT: 多模态推理与行动的 ChatGPT 提示
MM-REACT 是一种系统范例,将 ChatGPT 与一组视觉专家集成在一起,以实现多模态推理和动作,并引入了文本提示设计,以表示文本描述、已文本化的空间坐标和对齐的文件名来处理多模态信息。
- EMNLP面向模态的视频语料库时刻检索的伪查询生成
本文提出了一种基于自监督学习的框架,通过生成基于视觉和文本信息的伪查询,利用多模式信息来定位视频片段,有效地解决了视频中存在的时序动态和多模式推理问题,并在实验中取得了竞争性的结果。
- 将更多注意力转移至视觉主干:用于端到端视觉定位的查询调制细化网络
本文提出了一种 Query-modulated Refinement Network(QRNet)来处理视觉特征与多模态推理中所需特征的不一致性,包括 Query-aware Dynamic Attention(QD-ATT)机制和多尺度融 - ECCVPACS:用于物理视听常识推理的数据集
通过构建音视频共同存在的数据集 PACS,我们首次衡量了人类执行物理力学任务的准确性,并证明了多模态(多感官)推理对于物理常识推理的重要性。
- ICCV通天塔:结合图像、语言和 3D 几何学习多模视觉
本文提出了一个新的大规模数据集 WikiScenes 作为图像、文本和 3D 几何的多模态推理测试平台,利用 3D 几何提供的强约束将语义概念与图像像素和 3D 点联系起来,展示了 WikiScenes 在学习语义概念上的效用。
- MERLOT: 多模态神经脚本知识模型
MERLOT 是一个模型,通过观看数百万个 YouTube 视频进行自我监督的无标签学习,学习多模态脚本知识,包括空间和时间和语境化的全局情况,从而在视觉场景中推理动态情境,形成出色的时间常识和现场表现,并在视觉常识推理方面表现出色。
- ECCVSound2Sight:从声音和上下文生成视觉动态
本研究提出了一种基于多模态深度变分模型的音频 - 视觉联合生成模型,通过学习音频及以前帧的联合嵌入,学习每一帧的随机先验知识,并生成未来视频及其动态信息。此外,还通过多模态鉴别器强化了生成框架的视频质量和一致性,实验表明该方法可以生成高质量 - e-SNLI-VE: 图文蕴含纠错与自然语言解释
本文提到了一个新的 SNLI-VE corpus 数据集,用于识别视觉 - 文本蕴含,介绍了一个数据收集的过程去修正该数据集的标签错误,进一步评估了更正在的数据集 SNLI-VE-2.0,并且提供了开源的人写的自然语言解释用于训练模型,最后