BriefGPT.xyz
Ask
alpha
关键词
audio visual segmentation
搜索结果 - 1
IJCAI
通过音频查询来发现声音对象用于音频视觉分割
我们提出了一种基于音频查询的 Transformer 架构 (AQFormer),通过在视觉特征中利用预定义的音频查询聚集对象信息,建立了音频和视觉模态之间的明确的对象级语义对应关系,并提出了一种基于音频的时间交互模块来在多帧之间交换与声音
→
PDF
10 months ago
Prev
Next