Feb, 2024

ArcSin: 自适应范围余弦相似性注入噪声以支持以语言为驱动的视觉任务

TL;DR通过应用论文中提出的新方法-ArcSin,实现了在学习语言和推理与视觉任务之间进行模态转换,提高了视觉问题回答,图像字幕生成和视觉蕴含的性能。