面向视觉及语言推理的语义分布式鲁棒优化

ACLOct, 2021

面向视觉及语言推理的语义分布式鲁棒优化

Semantically Distributed Robust Optimization for Vision-and-Language Inference

Tejas Gokhale, Abhishek Chaudhary, Pratyay Banerjee, Chitta Baral, Yezhou Yang

TL;DR本文提出一种名为 SDRO 的模型无关方法，利用分布式鲁棒优化设置中的一组语言转换，并使用集成技术在推断期间利用这些转换来提高通用性和稳健性。实验表明，该方法可以对视觉和语言模型进行增强，从而在图像（NLVR2）和视频（VIOLIN）上获得性能改善，并展示了对抗性攻击的稳健性。

Abstract

Analysis of vision-and-language models has revealed their brittleness under linguistic phenomena such as paraphrasing, negation, textual entailment, and word substitutions with synonyms or antonyms. While data augmentat

vision-and-language models data augmentation linguistic transformations robustness v&l tasks

发现论文，激发创造

分布稳健的迁移学习

我们的论文介绍了一种新颖的转移学习方法，即分布鲁棒优化（TransDRO），它破除了严格的相似性约束，并通过在不确定性集合内优化最具对抗性的损失来优化目标数据的预测性能。通过数值研究和多机构电子健康记录数据的分析，我们验证了 TransDRO 的稳健性和准确性，突显其在转移学习应用中作为强大工具的潜力。

Sep, 2023

分布式鲁棒性语言建模

本文研究语言模型在未知测试分布下的性能问题，并提出了一种基于分布鲁棒性的优化方法，称为主题条件风险值（topic CVaR），该方法能够在广泛的潜在测试分布下表现良好，并且在使用 Yelp 评论和新闻混合训练语言模型，并仅在评论数据上进行测试时，相对于标准最大似然估计法（MLE），实现了 5.5 点困惑度的降低。

Sep, 2019

基于部分可观测数据的句法鲁棒开放式信息抽取训练

本篇论文提出了一种基于多样性释义的句法丰富分布的鲁棒性训练框架，用于解决模型训练中句法分布现实世界的不完全可观察性挑战。该框架包含两种算法，旨在恢复表达转化的知识。该框架可以应用于其他句法部分可观察的领域。在基于框架构建的验证集 CaRB-AutoPara 中，失败的模型在句法分布差异增加时性能下降，而实验结果表明，我们的框架可以给出一个鲁棒的边界。

Jan, 2023

面向文本到可视化翻译的鲁棒性对抗词汇和短语变异

研究针对文本到可视化的模型在语义匹配上对输入变化的鲁棒性进行全面分析，发现现有方法对于新的数据集变化，特别是在词汇和短语层面上，表现出不足的鲁棒性。为此，提出了一个新颖的基于 RAG 技术的框架 GRED，通过三个部分解决了自然语言变体、编程风格差异和数据模式变体等挑战，实验证明该模型在鲁棒性方面比目前领先的文本到可视化模型 RGVisNet 有 32% 的精度提升。

Apr, 2024

全局 - 局部正则化的分布鲁棒性

本文提出一种基于 Wasserstein 的分布鲁棒性优化方法，旨在通过同时应用本地和全局正则化，将原始分布与最具挑战性的分布相结合，提高模型的建模能力，解决深度神经网络在实际应用中对抗性示例和分布偏移等问题。实验结果表明，该方法在半监督学习、领域适应、领域泛化和对抗机器学习等各领域中均明显优于现有的正则化方法。

Mar, 2022

分布鲁棒模型的元分析

通过 meta-analysis，我们发现具有良好 OOD 鲁棒性的最佳表现的模型都具有四个共同点，即视觉 - 语言预训练具有巨大的潜力。

Jun, 2022

从视觉语言基础模型中提取出超出分布鲁棒性

通过知识蒸馏和数据增强的结合，提出了一个概念简单且轻量级的框架来提高视觉模型的鲁棒性。通过从预训练的基础模型进行蒸馏，我们得出了大型模型并不一定会成为更好的教师的推测并在分布外鲁棒性上取得了显著的改进。基于这一发现，我们提出了离散对抗蒸馏（DAD）的方法，利用鲁棒的教师生成对抗样本并使用 VQGAN 对其离散化，相比于标准的数据增强技术，生成的样本更具信息量。我们提供了一个理论框架来解释在具有数据增强的知识蒸馏中使用鲁棒的教师，并在不同的学生架构中展示了分布外鲁棒性和净精确度的显著改进。值得注意的是，我们的方法与类似技术相比只增加了较小的计算开销，并且可以轻松与其他数据增强技术结合以进一步提高性能。

Nov, 2023

在预训练的视觉 - 语言模型上基准测试适应方法的鲁棒性

对 11 种广泛使用的适应方法在 4 个视觉语言数据集中的鲁棒性进行了评估，发现适应方法对于文本污染比视觉污染更敏感，完整的微调并不能始终提供最高的鲁棒性，而适配器可以在可比较的干净表现下实现更好的鲁棒性，增加适应数据和参数的数量并不能保证增强鲁棒性，相反，会导致鲁棒性降低。

Jun, 2023

探究视觉与语言预训练模型的鲁棒性

通过对现有的预训练模型进行全面评估和改进，本研究提出了一种名为 Mango 的方法，在嵌入空间中学习多模态对抗性噪声生成器，使得预训练的视觉 - 语言模型的鲁棒性得到了大幅度提升，并在七项鲁棒性测试中创造了新的最高水平。

Dec, 2020

使用合成数据的视觉和语言模型超越名词

本文旨在通过提供一百万级的、人工合成的图像数据集 SyViC 和相应的数据生成代码，以及细调模型的策略，探讨如何提高视觉语言模型对非物体类词汇等方面（即超越名词的视觉语言概念）的理解和组合推理能力，从而在保持零样本准确度的前提下，极大提高模型的性能。通过在 ARO 和 VL-Checklist 等基准测试上的广泛实验和削减，我们证明了用人工合成数据进行训练可以在不牺牲零样本能力的情况下大幅提升其 VLC 理解能力（如在 ARO 上提高 9.9％，VL-Checklist 上提高 4.3％）。

Mar, 2023