BriefGPT.xyz
大模型
Ask
alpha
关键词
text-to-image multimodal tasks
搜索结果 - 1
COLING
VICTR:文本到图像多模式任务的视觉信息捕获文本表示
本文提出了一种新的视觉上下文文本表示方法,VICTR,用于处理文本到图像的多模态任务,通过使用图卷积网络和文本表征的结合,有效地捕捉了文本语义中的视觉特征信息,实现了在实验中得到的量化和定性的改进。
PDF
4 years ago
Prev
Next