多模态知识对齐与强化学习

May, 2022

Multimodal Knowledge Alignment with Reinforcement Learning

Youngjae Yu, Jiwan Chung, Heeseung Yun, Jack Hessel, JaeSung Park...

TL;DR本论文提出了一种名为 ESPER 的方法，将仅基于语言的零 - shot 模型扩展到未见过的多模态任务，如图像和音频字幕生成，采用强化学习来无需直接监督地将多模态输入与语言模型生成对齐，实验表明该方法胜过了基线和之前工作的新基准测试。

Abstract

large language models readily adapt to novel settings, even without task-specific training data. Can their zero-shot capacity be extended to mult

large language models zero-shot capacity multimodal inputs esper reinforcement learning

发现论文，激发创造

零样本跨语言图像检索

该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法，它可以用于构建跨语言图像检索模型和改进文本嵌入聚类，并在多语言环境下进行评估。

Nov, 2020

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

零样本跨语言图像检索与标记

本论文探讨采用跨语言预训练的零样本方法来学习多模态表示，提出建立跨语言图像检索模型的简单实用方法，并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集（XTD10）的零样本模型性能，证明跨语言模型可用于零样本的下游任务，如多语言图像标记。

Sep, 2021

语言远非万能：将感知与语言模型对齐

本文介绍了 Kosmos-1，它是一个多模态大语言模型（MLLM），可以感知一般模态，可以在上下文中学习，可以零 - shot 地遵循说明，并在各种任务上取得了卓越的性能，包括语言理解、生成，多模态对话，图像字幕，视觉问答等，并证明 MLLM 可以从跨模态转移中受益，即从语言到多模态和从多模态到语言。此外，我们还介绍了 Raven IQ 测试数据集，用于诊断 MLLM 的非语言推理能力。

Feb, 2023

使用冻结语言模型的多模式小样本学习

通过对齐图像和标题数据，我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入，并使用预先训练的冻结语言模型来生成相应的标题，从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型，具有学习各种新任务的惊人能力，如用只有少数几个样例进行视觉问答，或者利用外部知识。

Jun, 2021

Apollo：多模式无需标注的零 - shot 推理与多专家

我们提出了一个模块化框架，利用不同模态和领域中不同基础模型的专业知识，以执行一个单一、复杂的多模态任务，无需依赖提示工程或量身定制的多模态训练。我们的方法实现了分散的命令执行，使每个模型能够同时贡献和受益于其他模型的专业知识。我们的方法可以扩展到各种基础模型（包括音频和视觉），不仅限于语言模型，因为它不依赖于提示。我们在两个任务上演示了我们的方法。在众所周知的样式化图像字幕任务中，我们的实验表明我们的方法优于半监督最先进模型，同时具备零 - shot 能力，避免了昂贵的训练、数据收集和提示工程。我们进一步在一个新颖的任务上演示了这个方法，即音频感知图像字幕，在这个任务中，给定图像和音频，任务是在提供的音频语境中生成描述图像的文本。我们的代码可在 GitHub 上找到。

Oct, 2023

利用大型语言模型进行零样本音频主题重排序

该研究项目探讨了使用视频片段作为信息检索的查询术语，而不是传统的文本查询，以实现更丰富的搜索模式，如图像、说话者、内容、主题和情感。研究重点是通过嵌入表示视频属性以支持大型存档的高速灵活搜索，并通过重新排序方法来缓解由此带来的性能损失。研究结果表明，使用大型语言模型的零样本重新排序方法可以在没有任何任务特定训练数据的情况下实现改进的检索排序。

Sep, 2023

语言引导的具身化智能体多模式语音识别

本文提出了一种多模式自动语音识别模型，通过考虑附带的视觉上下文来减少口头指令的错误转录，使用了仿真的噪声环境。实验结果表明，使用多模态 ASR 模型可使任务完成的准确性得到提高。

Feb, 2023

视觉增强零样本图像分类的多模态大语言模型

使用多模态大语言模型 (Multimodal LLMs) 的简单且有效方法实现了零样本图像分类，通过生成全面的文本表示从而在交叉模态嵌入空间中生成固定维度特征，在线性分类器上融合这些特征以进行分类，取得了令人瞩目的效果。

May, 2024

使用预训练大型多模态模型的音频视觉广义零样本学习

利用预训练模型，包括 CLIP 和 CLAP 提取特征，结合文本编码嵌入以提高性能，我们提出了一个仅依赖前馈神经网络的简单而有效的模型来处理音频视觉的零样本学习，并在 VGGSound-GZSL、UCF-GZSL 和 ActivityNet-GZSL 等数据集上取得了最先进的性能。

Apr, 2024