BriefGPT.xyz
大模型
Ask
alpha
关键词
vilbert
搜索结果 - 5
MM
统一多模态模型结合非可能训练用于视觉对话
本文提出了一种名为 UniMM-UL 的统一多模态模型,它使用 Unlikelihood Training 方法来探索负样本中使用的有用知识,具有比先前工作更好的生成结果和与最先进技术相媲美的区分结果,并支持视觉对话理解和生成的多任务学习。
PDF
2 years ago
COLING
使用文本和视觉线索进行讽刺检测的多模态方法
本文研究了关于讽刺新闻的多模态方法,并使用基于 ViLBERT 模型的新数据集对其进行评估,结果表明我们提出的多模态方法优于仅使用图像或文本或简单融合的方法。
PDF
4 years ago
ACL
话语不够,次序至关重要:关于视觉指称表达的鲁棒性
该论文研究了视觉指代表达识别这一挑战性任务,发现现有方法未能充分利用语言结构,提出了两种增强其健壮性的方法,并提供了数据集以供使用。
PDF
4 years ago
视觉对话的大规模预训练:一个简单的最先进基准线
本文提出了一种基于 ViLBERT 的方法,该方法采用与 Visual Dialog 相关的视觉语言数据集的预训练,随后转移到 Visual Dialog 的训练上。文中还发现,在 Visual Dialog 中使用密集注释进行微调,可以提
→
PDF
5 years ago
ViLBERT:预训练无任务束缚的视觉语言表示,用于视觉与语言任务
ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型,并通过在多模态两个流中处理图像和文本输入,通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型,然后通过仅对基础
→
PDF
5 years ago
Prev
Next