WhisBERT: 亿字规模的多模式文本音频语言建模
通过音频 - 语言知识蒸馏框架,将语音数据中的声学和语用信息转移到学生语言模型,从而改进了传统语言模型在分析口述文本任务上的性能。
Nov, 2023
通过利用大型语言模型(如 GPT-3.5 或 Llama2)的广泛知识,结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述,我们提出了一种新的模型不可知方法,用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明,这种基于文本描述的方法在视频理解任务中取得了成功,为多模态分类提供了一个有前景的新研究方向。
Sep, 2023
Audio-Visual Speech Recognition (AVSR) uses Whisper-Flamingo, a model that integrates visual features, to improve speech recognition and translation performance in noisy conditions for multiple languages.
Jun, 2024
利用 FLAVA 模型进行消融研究,独立变化文本和视觉输入量,发现多模态预训练既不损害模型的语言性能,也没有一致的帮助作用;然而,由于实验规模有限,这些结论还不完全确定,需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。
Feb, 2024
本文提出了 u-HuBERT,它是一个能够利用模态失效的自监督预训练框架,可以在保持优秀性能的同时,实现单模型处理多模态的语音输入。
Jul, 2022
识别说话者对信仰的承诺水平是一项困难的任务;我们是第一个推断多模态信仰预测任务并展示结果的研究,使用了包含对齐文本和音频的说话者信仰标注的 CB-Prosody 语料库(CBP);我们报告了使用声学 - 韵律特征和传统机器学习方法的基线和显著特征;我们还提出了基于 BERT 和 Whisper 的 CBP 语料库微调的文本和音频基线;最后,我们提出了使用 BERT 和 Whisper 的多模态架构,并使用多种融合方法,改善了单独的模态。
Jun, 2024
使用预训练的 wav2vec 2.0 和 MBART50 模型,结合自适应权重技术,显著提高公共数据集上多语言语音识别的准确性,比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。
May, 2022
在这项研究中,我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了 DistilWhisper 方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的 ASR 性能。
May, 2024
本文研究了如何将非语言性特征(例如视觉和听觉)转化为对应的文本描述,并将其与口头文本结合,从而将多模态信息整合到基于文本的预训练大语言模型中。我们称此方法为 TextMI,并在情感、幽默和讽刺检测等多个下游任务中进行了 fine-tune,取得了令人满意的性能,因此提出将 TextMI 作为低资源环境下多模态行为分析任务的通用、有竞争力的基准。
Mar, 2023
我们介绍了一种开创性的多模态大型语言模型,能够在一个多轮对话中理解多图像、多音频和多图像 - 多音频。借助最先进的模型,我们利用 SigLIP 编码器进行视觉输入和 Whisper 编码器进行音频输入。值得注意的是,这个多模态大型语言模型是双语的,能够同时理解英文和马来文。我们自豪地推出了这个模型的两个版本:参数量为 1.1B 的 TinyLlama 和参数量为 7B 的 Mistral。我们的模型能够处理多样的模态和语言,代表了马来西亚及其他地区的重大进展。
Feb, 2024