AllSpark: 一个多模态时空总体模型

Dec, 2023

AllSpark: a multimodal spatiotemporal general model

Run Shao, Cheng Yang, Qiujun Li, Qing Zhu, Yongjun Zhang...

TL;DR通过引入语言参考框架 (LaRF) 和 AllSpark 模型，将多模态时空数据的联合解释问题化为在各模态之间达成连贯性和自主性之间的权衡，并且实验结果表明 AllSpark 在 RGB 和轨迹等模态上相比最先进模型具有竞争力的准确度。

Abstract

For a long time, due to the high heterogeneity in structure and semantics among various spatiotemporal modal data, the joint interpretation of multimodal spatiotemporal data has been an extremely challenging problem. The primary challenge resides in striking a trade-off between the cohesion a

multimodal spatiotemporal data language as reference framework allspark cohesion and autonomy modality-specific prompts

发现论文，激发创造

一体化探索：多模态对齐下的统一视觉语言跟踪

现有主流的视觉语言（VL）跟踪框架由三部分组成，即视觉特征提取器，语言特征提取器和融合模型。本文提出了一个全新的、一体化的框架，通过采用统一的 Transformer 骨干结构，学习联合特征提取和交互，实现了特征的统一融合，消除了特征集成和融合模块的需求，从而在视觉语言跟踪方面获得了更有效和高效的结果。

Jul, 2023

ChatBridge：利用大型语言模型作为语言催化剂桥接语言形式

本文提出了一种名为 ChatBridge 的多模态语言模型，利用语言的表达能力作为各种模态之间的桥梁，从而实现多种任务的感知。ChatBridge 利用大型语言模型（LLM）的零 - shot 能力来处理多样化的多模态输入，尤其是在涵盖文本、图像、视频和音频模态的 16 种多模态任务中展现出良好的强化学习效果。

May, 2023

联合训练大型自回归多模态模型

近年来，语言和文本到图像模型的大规模预训练的进步已经革新了机器学习领域。然而，将这两种模态集成到一个能够生成无缝多模态输出的强大模型仍然是一个重大挑战。为了解决这个问题，我们提出了联合自回归混合（JAM）框架，这是一种模块化的方法，系统地融合了现有的文本和图像生成模型。我们还引入了一种专门的、高效的数据调优策略，为混合模态生成任务量身定制。我们最终调优的模型在生成高质量多模态输出方面表现出了无与伦比的性能，并且代表了首个明确设计用于此目的的模型。

Sep, 2023

语言远非万能：将感知与语言模型对齐

本文介绍了 Kosmos-1，它是一个多模态大语言模型（MLLM），可以感知一般模态，可以在上下文中学习，可以零 - shot 地遵循说明，并在各种任务上取得了卓越的性能，包括语言理解、生成，多模态对话，图像字幕，视觉问答等，并证明 MLLM 可以从跨模态转移中受益，即从语言到多模态和从多模态到语言。此外，我们还介绍了 Raven IQ 测试数据集，用于诊断 MLLM 的非语言推理能力。

Feb, 2023

Sparkles: 跨多图解锁聊天功能的多模口实行模型

SparklesChat 是一个多模态指令追随模型，通过整合文本和图像的方式，有效地进行多图像的开放式对话。实验证实了 SparklesChat 在跨多个图像和对话转换中理解和推理的有效性，并在视觉与语言基准测试中优于 MiniGPT-4，显示出良好的应用通用性。

Aug, 2023

LLaSM：大型语言和语音模型

大型语言和语音模型 (LLaSM) 是一个经过端到端训练的大规模多模态语音语言模型，具备跨模态对话能力，能够遵循语音和语言指令。LLaSM 通过提供更便捷和自然的方式，展示了人类与人工智能进行互动的方式。

Aug, 2023

模式逼近生成优秀的视觉语言提示

本研究提出了 Aurora，一个优美的提示框架，用于跨模态传递，以解决模型复杂性和模态对齐问题。在六个跨模态下游基准测试中， Aurora 不仅优于最先进的方法，甚至优于完全微调方法。

May, 2023

AnyMAL: 一种高效且可扩展的任意模态增强语言模型

我们提出了 Any-Modality Augmented Language Model (AnyMAL)，这是一个统一模型，可以对多样化的输入模态信号（文本、图像、视频、音频、IMU 运动传感器）进行推理，并生成文本回复。AnyMAL 继承了最先进的 LLMs（如 LLaMA-2 (70B)）的强大的基于文本的推理能力，并通过预训练的对齐模块将模态特定信号转换为联合文本空间。为了进一步增强多模态 LLM 的功能，我们使用人工收集的多模态指令集对模型进行了微调，以覆盖复杂的主题和任务。我们进行了全面的经验分析，包括人工和自动评估，并在各种多模态任务上展示了最先进的性能。

Sep, 2023

一个模型，多种模态：文本、声音、图像、视频和代码的稀疏激活方法

本文提出了一个能够优秀地处理多模态信息的模型，名为 SkillNet，其不同的参数部分专门用于处理不同的信息模态，并且可以稀疏激活模型参数的相关技能。我们使用自监督预训练方式对五种模态进行了开发，结果表明该模型表现与五个模态特定的微调模型相当。在汉语文本 - 图片检索任务中，我们的系统使用较少的激活参数数目，就实现了比现有优秀的 Wukong {ViT-B} 和 Wenlan 2.0 更高的准确性。

May, 2022

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018