BriefGPT.xyz
Ask
alpha
关键词
three-modality learning
搜索结果 - 1
学习联合嵌入空间的三模态动作检索
LAVIMO 是一个三模态学习的创新框架,通过加入人类中心视频作为额外模态,有效地弥补了文本和动作之间的差距,利用特殊设计的注意机制促进了文本、视频和动作模态之间的增强对齐和协同效应,在多个与动作相关的跨模态检索任务中实现了最先进的性能。
PDF
4 months ago
Prev
Next