BriefGPT.xyz
Ask
alpha
关键词
contextual multi-modal alignment
搜索结果 - 1
CAD - 动态音视频问题回答的上下文多模态对齐
在这篇论文中,我们提出了一种新的上下文多模态对齐(CAD)网络,通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐,提出了一种用于动态音频和视觉对齐的预训练技术,以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。在 MUS
→
PDF
8 months ago
Prev
Next