BriefGPT.xyz
Ask
alpha
关键词
multimodal incremental transformer
搜索结果 - 1
ACL
多模态增量变压器结合视觉定位生成视觉对话
该研究提出了一种多模态增量变形器(MITVG)的视觉指向方法,该方法可以显式地定位与文本实体相关的图像对象,从而帮助模型排除不需要关注的视觉内容,进而在多轮对话历史记录和视觉场景的基础上生成一致且连贯的响应。该模型在 VisDial v0.
→
PDF
3 years ago
Prev
Next