BriefGPT.xyz
Ask
alpha
关键词
multi-scale cross-modal perception
搜索结果 - 1
CVPR
未剪辑视频中稠密定位视听事件:一个大规模基准和基线模型
本文介绍了针对非修剪视频中具有多种类别音频 - 视觉事件的任务的挑战,提出了一个新的学习框架来解决此问题,并引入了第一个 Untrimmed Audio-Visual (UnAV-100) 数据集以验证其有效性。
PDF
a year ago
Prev
Next