BriefGPT.xyz
Ask
alpha
关键词
haca framework
搜索结果 - 1
ACL
观看、倾听和描述:全局和局部对齐的跨模态关注力用于视频字幕生成
提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态,在视频字幕任务中, 首次验证了深度音频特征的卓越性能,该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新
→
PDF
6 years ago
Prev
Next