BriefGPT.xyz
Ask
alpha
关键词
vision and language tasks
搜索结果 - 3
通过动态路径定制实现图像字幕
本文探索一种新颖的动态网络以应对视觉和语言任务,其中推理结构针对不同输入动态定制。通过引入基本单元并在空间和通道运算领域分组,以构建丰富的路径空间和提升路径选择效率,我们设计了一个空间 - 通道联合路由器来根据输入样本的空间和通道信息进行路
→
PDF
a month ago
适用于视觉和语言任务的视觉编码器互补性研究
本研究利用三个常用的视觉编码器对六种下游视觉语言任务进行了详细实验,并对注意力机制和编码器 - dropout 模式进行了分析,结果显示不同的视觉编码器互补,可以提高下游视觉语言任务的性能而不是简单的合成效果,且未来的视觉编码器有望提高目标
→
PDF
2 years ago
EMNLP
利用超细语义标签进行解耦的边界框提议和特征提取改善图像描述生成和视觉问答
本文研究了对象检测在视觉和语言任务(如图像字幕和视觉问答)中的重要作用以及解耦盒子提议和特征化对下游任务的影响。 实证表明,这导致有效的转移学习和改进的图像字幕和视觉问答模型,以公开可用的基准为衡量。
PDF
5 years ago
Prev
Next