BriefGPT.xyz
Ask
alpha
关键词
cross-modal semantic understanding
搜索结果 - 2
ICCV
声源定位是关于跨模态对齐的全部内容
我们提出了一个跨模态对齐任务作为声源定位的联合任务,以更好地学习音频和视觉模态之间的交互,并在声源定位和跨模态检索方面超越了现有的方法,从而实现了较高的定位性能和强大的跨模态语义理解。
PDF
10 months ago
NExT-GPT: 任意到任意多模态 LLM
我们介绍了一个名为 NExT-GPT 的全方位任意多模式多语言模型系统,通过使用多模态适配器和不同扩散解码器,NExT-GPT 能够接受和生成文本、图像、视频和音频等任意组合的内容,并通过调优投影层的少量参数进行训练和扩展,使其具备复杂的跨
→
PDF
10 months ago
Prev
Next