BriefGPT.xyz
Ask
alpha
关键词
multi-modality encoder
搜索结果 - 1
视频与语言联系定位的多级对齐训练方案
本文着眼于视频和语言之间的语义联系,提出了一种多级对齐训练方案,基于信息相似性从高层次的上下文到细粒度的语义,通过对称损失来对齐视频和语言的编码,从而在共享特征空间中确保相似信息紧密编码而不同语义的信息保持分开。我们的多级对齐训练可应用于各
→
PDF
2 years ago
Prev
Next