利用语言模型大规模制造多模态系统的故障
本文介绍了 LIUM 和 CVC 为 WMT16 Multimodal Machine Translation Challenge 开发的系统。我们在单模态数据和多模态数据的基础上,探索了各种比较方法,包括基于短语的系统和使用单模态或多模态数据训练的注意力循环神经网络模型。我们还进行了人类评估,以估计多模态数据对于人机翻译和图像描述生成的实用性。根据自动评估指标 BLEU 和 METEOR,我们的系统在这两个任务中获得了最佳结果。
May, 2016
提出了一种基于图神经网络和变压器的跨语言灾难相关文本分类系统,该系统可以在有限的监督下工作,并在多种语言和单语言情境下进行分类。在英语、非英语和单语数据集上测试,该系统的加权 F1 值优于现有的最先进模型和多语言 BERT 基线。
Mar, 2022
利用 FLAVA 模型进行消融研究,独立变化文本和视觉输入量,发现多模态预训练既不损害模型的语言性能,也没有一致的帮助作用;然而,由于实验规模有限,这些结论还不完全确定,需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。
Feb, 2024
通过将多模态大型语言模型(MLLM)视为图像分类器,并引入 EMT(用于评估 MLLM 中的灾难性遗忘)来评估现有的 MLLM 并检测到 fine-tuning 在图像分类任务上性能下降的问题。研究发现,几乎所有评估的 MLLM 在标准图像分类任务上都无法保持与视觉编码器相同的性能水平,并且尽管初期 fine-tuning 可以提高在其他图像数据集上的性能,但随着 fine-tuning 的进行,MLLM 开始产生幻觉,并导致了显著的泛化能力损失。因此,MLLM 在标准图像分类任务上的性能仍有待提高。
Sep, 2023
提出了一种简单而有效的框架 TRML,即利用多模态基础模型进行鲁棒多模态学习,通过生成虚拟模态替代丢失模态,并对生成和丢失模态之间的语义空间进行对齐,从而捕捉缺失模态的语义。在完整模态的情况下,我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。
Jan, 2024
本文提出了一种名为 MultiFusion 的方法,利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中,从而大幅提高了效率。实验证明,MultiFusion 可以将各个独立的组件整合起来,使图像生成模块能够利用来自各种语言和模态的输入。
May, 2023
填补大型多模型(LMMs)评估中的不足,通过研究其输出在常见破坏情况下的自一致性,调查文本、图像和语音之间的跨模态交互,创建了一个综合性基准 MMCbench,评估了 100 多个受欢迎的 LMMs(共 150 个模型检查点),此全面评估对于实际部署至关重要,并有助于更好地了解顶尖 LMMs 的可靠性。
Jan, 2024
设计一个学习算法来处理图像和文本两个数据源,通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示,最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。
Jun, 2024
本研究首次探讨大型语言模型(LLMs)在故障模式分类(FMC)中的有效性,并通过使用限制代码表的方式详细介绍了促使 LLM 预测给定观察结果的故障模式的方法。我们展示了在注释数据上进行微调的 GPT-3.5 模型(F1=0.80)在性能上明显优于在相同注释数据集上训练的当前可用文本分类模型(F1=0.60)。该微调模型也优于开箱即用的 GPT-3.5 模型(F1=0.46)。这项研究强调了使用 LLMs 进行特定领域任务时的高质量微调数据集的必要性。
Sep, 2023