Mar, 2024

学习联合嵌入空间的三模态动作检索

TL;DRLAVIMO 是一个三模态学习的创新框架,通过加入人类中心视频作为额外模态,有效地弥补了文本和动作之间的差距,利用特殊设计的注意机制促进了文本、视频和动作模态之间的增强对齐和协同效应,在多个与动作相关的跨模态检索任务中实现了最先进的性能。