BriefGPT.xyz
Ask
alpha
关键词
multi-modality tasks
搜索结果 - 2
DynRefer: 通过动态分辨率探索区域级多模态任务
通过动态分辨率方法(DynRefer)来改善区域级多模态任务的高精确度指代,提高多模态模型的表示适应性,并在多个区域级多模态任务上取得新的最先进结果。
PDF
a month ago
CVPR
简明至上:基于 CLIP 特征的线性层作为强大的 VizWiz 模型
该研究提出了一种基于 CLIP 的体系结构,通过将图像和文本编码器的拼接特征上应用简单的线性分类器,并在训练期间添加一项辅助损失,以操作答案类型,并将其作为答案类选择的注意力门,成功解决了多模态任务体系结构高复杂度、难以训练、计算资源要求高
→
PDF
2 years ago
Prev
Next