BriefGPT.xyz
Ask
alpha
关键词
text-visual features
搜索结果 - 2
ECCV
所有组合都相等吗?使用多空间学习将文本和视觉特征结合以进行基于文本的视频检索
本文旨在解决跨模态视频检索问题,具体聚焦于文本到视频的检索,并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构,引入额外的 softmax 运算来修正推断的查询 - 视频相似性,并在三个大规
→
PDF
2 years ago
多模态对话生成中的文本视觉相互依赖建模
该论文提出了一种解决多模态对话生成的方法,可以更好地模拟真实环境中的多模态对话。通过建模文本 - 视觉特征之间的相互依赖,并研究生成与视觉背景相关的对话,大幅提升了模型性能。
PDF
3 years ago
Prev
Next