BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal setting
搜索结果 - 4
指令引导下的视觉遮罩化
通过引入指导型视觉遮罩(IVM)来改进多模式指令跟踪,本研究在多模式设置下证明了 IVM 的适用性,并显示出在图像与指令之间进行准确的视觉对齐的优势。通过构建视觉遮罩,IVM 增强的多模式模型能够更好地关注与任务相关的图像区域,从而取得更好
→
PDF
a month ago
语义对齐下的潜在空间翻译
通过简单的转换,我们的研究展示了神经网络模型中学习到的表示可以在不同的预训练网络之间进行转化,从而有效地连接编码器和解码器,并实现在多模态设置下的出色分类性能。
PDF
8 months ago
家长和孩子:区分多模态深度伪造图像与自然图像
本文通过系统研究最新扩散模型生成的虚假图片的真实性,分析其图像的低层特征和用作种子的文本说明的语义作用,并提供了一个新的包含约 600k 张图像的数据集 COCOFake。
PDF
a year ago
递归内存寻址描述视频
本文提出了 Key-Value Memory Networks 应用于多模态设置的方法,以及一种新的键寻址机制,将视频字幕生成问题自然地分解为视觉和语言端,将其作为键 - 值对处理,并在寻址模式下提出了一种递归关注的方法来捕捉语境信息,通过
→
PDF
8 years ago
Prev
Next