BriefGPT.xyz
大模型
Ask
alpha
关键词
multiscale multimodal transformer
搜索结果 - 1
高效多尺度多模态瓶颈变压器用于音视频分类
本文介绍了一种多尺度多模态转换器(MMT),利用层次化表示学习,进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合,提高动作识别准确率。
PDF
6 months ago
Prev
Next