BriefGPT.xyz
Ask
alpha
关键词
multimodal adversarial training
搜索结果 - 1
基于 OCR 模态扰动的场景文本视觉问答对抗训练
本研究提出了一种多模态的对抗训练架构,其中引入了对抗性 OCR 增强(AOE)模块和空间感知自注意力(SASA)机制,旨在改善场景文本视觉问答的性能,并为多模态对抗训练提供了新的方法。
PDF
4 months ago
Prev
Next