利用语言模型大规模制造多模态系统的故障

Jun, 2023

利用语言模型大规模制造多模态系统的故障

Mass-Producing Failures of Multimodal Systems with Language Models

Shengbang Tong, Erik Jones, Jacob Steinhardt

TL;DRMultiMon 通过自动识别系统性失败的方式，发现了 CLIP 文本编码器的 14 种系统性失败，是朝着自主探索潜在系统失败的长尾方向迈出的一步。

Abstract

Deployed multimodal systems can fail in ways that evaluators did not anticipate. In order to find these failures before deployment, we introduce multimon, a system that automatically identifies →

multimodal systems systematic failures natural language clip text-encoder multimon

发现论文，激发创造

多模态对人类和机器在翻译和图像字幕中是否有帮助？

本文介绍了 LIUM 和 CVC 为 WMT16 Multimodal Machine Translation Challenge 开发的系统。我们在单模态数据和多模态数据的基础上，探索了各种比较方法，包括基于短语的系统和使用单模态或多模态数据训练的注意力循环神经网络模型。我们还进行了人类评估，以估计多模态数据对于人机翻译和图像描述生成的实用性。根据自动评估指标 BLEU 和 METEOR，我们的系统在这两个任务中获得了最佳结果。

May, 2016

用图神经网络增强的语言模型进行高效的多语言文本分类

提出了一种基于图神经网络和变压器的跨语言灾难相关文本分类系统，该系统可以在有限的监督下工作，并在多种语言和单语言情境下进行分类。在英语、非英语和单语数据集上测试，该系统的加权 F1 值优于现有的最先进模型和多语言 BERT 基线。

Mar, 2022

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

多模型大语言模型中的灾难性遗忘研究

通过将多模态大型语言模型（MLLM）视为图像分类器，并引入 EMT（用于评估 MLLM 中的灾难性遗忘）来评估现有的 MLLM 并检测到 fine-tuning 在图像分类任务上性能下降的问题。研究发现，几乎所有评估的 MLLM 在标准图像分类任务上都无法保持与视觉编码器相同的性能水平，并且尽管初期 fine-tuning 可以提高在其他图像数据集上的性能，但随着 fine-tuning 的进行，MLLM 开始产生幻觉，并导致了显著的泛化能力损失。因此，MLLM 在标准图像分类任务上的性能仍有待提高。

Sep, 2023

基于多模态基础模型的鲁棒多模态学习

提出了一种简单而有效的框架 TRML，即利用多模态基础模型进行鲁棒多模态学习，通过生成虚拟模态替代丢失模态，并对生成和丢失模态之间的语义空间进行对齐，从而捕捉缺失模态的语义。在完整模态的情况下，我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。

Jan, 2024

MultiFusion：预训练模型融合用于多语言，多模态图像生成

本文提出了一种名为 MultiFusion 的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion 可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态的输入。

May, 2023

对大型多模态模型进行常见冲突的基准测试

填补大型多模型（LMMs）评估中的不足，通过研究其输出在常见破坏情况下的自一致性，调查文本、图像和语音之间的跨模态交互，创建了一个综合性基准 MMCbench，评估了 100 多个受欢迎的 LMMs（共 150 个模型检查点），此全面评估对于实际部署至关重要，并有助于更好地了解顶尖 LMMs 的可靠性。

Jan, 2024

CLIP 的多模态多标签分类

设计一个学习算法来处理图像和文本两个数据源，通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示，最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。

Jun, 2024

大型语言模型用于故障模式分类：一项调查

本研究首次探讨大型语言模型（LLMs）在故障模式分类（FMC）中的有效性，并通过使用限制代码表的方式详细介绍了促使 LLM 预测给定观察结果的故障模式的方法。我们展示了在注释数据上进行微调的 GPT-3.5 模型（F1=0.80）在性能上明显优于在相同注释数据集上训练的当前可用文本分类模型（F1=0.60）。该微调模型也优于开箱即用的 GPT-3.5 模型（F1=0.46）。这项研究强调了使用 LLMs 进行特定领域任务时的高质量微调数据集的必要性。

Sep, 2023