Mar, 2024
基于 OCR 模态扰动的场景文本视觉问答对抗训练
Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering
Zhixuan Shen, Haonan Luo, Sijia Li, Tianrui Li
TL;DR本研究提出了一种多模态的对抗训练架构,其中引入了对抗性 OCR 增强(AOE)模块和空间感知自注意力(SASA)机制,旨在改善场景文本视觉问答的性能,并为多模态对抗训练提供了新的方法。