WhisBERT: 亿字规模的多模式文本音频语言建模

EMNLPDec, 2023

WhisBERT: 亿字规模的多模式文本音频语言建模

WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words

Lukas Wolf, Klemen Kotar, Greta Tuckute, Eghbal Hosseini, Tamar Regev...

TL;DR多模态训练对语言模型的质量和效率有所改善，但在复杂目标优化和超越纯文本基线方面仍存在挑战。

Abstract

Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on

multiple modalities language model text--audio whisbert multimodal masked modeling

发现论文，激发创造

用低语启迪我：使用语音嵌入增强大型语言模型对口述剧本的分析

通过音频 - 语言知识蒸馏框架，将语音数据中的声学和语用信息转移到学生语言模型，从而改进了传统语言模型在分析口述文本任务上的性能。

Nov, 2023

语言作为媒介：通过仅文本进行多模态视频分类

通过利用大型语言模型（如 GPT-3.5 或 Llama2）的广泛知识，结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述，我们提出了一种新的模型不可知方法，用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明，这种基于文本描述的方法在视频理解任务中取得了成功，为多模态分类提供了一个有前景的新研究方向。

Sep, 2023

Whisper-Flamingo: 集成视觉特征于 Whisper 中用于音频 - 视觉语音识别和翻译

Audio-Visual Speech Recognition (AVSR) uses Whisper-Flamingo, a model that integrates visual features, to improve speech recognition and translation performance in noisy conditions for multiple languages.

Jun, 2024

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

多模态信念预测

识别说话者对信仰的承诺水平是一项困难的任务；我们是第一个推断多模态信仰预测任务并展示结果的研究，使用了包含对齐文本和音频的说话者信仰标注的 CB-Prosody 语料库（CBP）；我们报告了使用声学 - 韵律特征和传统机器学习方法的基线和显著特征；我们还提出了基于 BERT 和 Whisper 的 CBP 语料库微调的文本和音频基线；最后，我们提出了使用 BERT 和 Whisper 的多模态架构，并使用多种融合方法，改善了单独的模态。

Jun, 2024

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

为预训练语言模型整合非语言线索而文本化多模态信息

本文研究了如何将非语言性特征（例如视觉和听觉）转化为对应的文本描述，并将其与口头文本结合，从而将多模态信息整合到基于文本的预训练大语言模型中。我们称此方法为 TextMI，并在情感、幽默和讽刺检测等多个下游任务中进行了 fine-tune，取得了令人满意的性能，因此提出将 TextMI 作为低资源环境下多模态行为分析任务的通用、有竞争力的基准。

Mar, 2023

MMMModal -- 多图像多音频多轮多模态

我们介绍了一种开创性的多模态大型语言模型，能够在一个多轮对话中理解多图像、多音频和多图像 - 多音频。借助最先进的模型，我们利用 SigLIP 编码器进行视觉输入和 Whisper 编码器进行音频输入。值得注意的是，这个多模态大型语言模型是双语的，能够同时理解英文和马来文。我们自豪地推出了这个模型的两个版本：参数量为 1.1B 的 TinyLlama 和参数量为 7B 的 Mistral。我们的模型能够处理多样的模态和语言，代表了马来西亚及其他地区的重大进展。

Feb, 2024