LEGO：语言增强多模态基准模型

Jan, 2024

LEGO:Language Enhanced Multi-modal Grounding Model

Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai...

TL;DR我们提出了一种名为 LEGO 的语言增强多模型定位模型，相较于现有的多模型模型，它具备较好识别和定位图像特定区域以及视频特定时刻的能力，通过多样化的数据集构建流程进行模型训练。

Abstract

multi-modal large language models have demonstrated impressive performance across various tasks in different modalities. However, existing multi-modal models primarily emphasize capturing global information within each modality while neglecting the importance of perceiving local inform

multi-modal large language models fine-grained understanding lego multi-modal grounding model diversified dataset construction pipeline

发现论文，激发创造

MM-Lego：具有最小微调的模块化生物医学多模态模型

本研究提出了多模态 Lego（MM-Lego）框架，它是一个模块化和通用的融合和模型合并方法，可以将任何一组编码器转化为具有竞争力的多模态模型，不需要或仅需要进行最小的微调。通过引入对单模态编码器的包装，MM-Lego 强制实施模态之间的轻量级维度假设，并通过在频域学习特征来协调它们的表示，以使模型合并时干扰最小。实验证明，MM-Lego 可以作为模型合并的方法，达到了与端到端融合模型相媲美的性能，而无需进行任何微调；它可以在任何单模态编码器上运行；并且通过最小的微调，可以在六个基准多模态生物医学任务上实现最先进的结果。

May, 2024

BuboGPT：多模态 LLM 中的视觉定位

BuboGPT 是一种多模态的 LLM，具有视觉定位和文本 - 图像 - 音频理解的能力，通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下，BuboGPT 在与人类交互时表现出令人印象深刻的多模态理解和视觉定位能力。

Jul, 2023

HiVG: 视觉引导的分层多模态细粒度调控

通过多模态预训练的方法，我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG，用于解决通过自然语言对视觉区域进行视觉定位的任务，并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。

Apr, 2024

像双语婴儿一样：视觉引导双语语言模型的优势

通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型，研究发现视觉基础能够提高语义相似性的理解能力，特别是在跨语言时，但是在抽象词汇方面没有显著优势。研究还指出，为了进一步提高视觉基础的语言模型的实用性，需要更多多语言数据和多语言说话者的感知基础。

Oct, 2022

冻结的大规模模型在多模态任务导向对话中的应用

使用现有的 LENS Framework 来测试对话系统的多模态任务的可行性，与以往的基于 Transformer 的模型相比，我们的方法在流畅性、有用性以及相关性和连贯性上均有显著提升，同时证明了大规模预训练模型对于多模态任务导向对话系统的有效性。

Oct, 2023

语言处理的多模态基础

本文讨论多模态处理的最新进展，探讨了多模态信息流和不同的多模态表示方法，讨论了多模态基础对于语言处理任务的益处和挑战。特别着重研究动词的多模态基础，对语言的组成能力起着重要作用。

Jun, 2018

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017