Mar, 2024

基于 OCR 模态扰动的场景文本视觉问答对抗训练

TL;DR本研究提出了一种多模态的对抗训练架构,其中引入了对抗性 OCR 增强(AOE)模块和空间感知自注意力(SASA)机制,旨在改善场景文本视觉问答的性能,并为多模态对抗训练提供了新的方法。