BriefGPT.xyz
Ask
alpha
关键词
audio-visual modeling
搜索结果 - 2
LoCoNet:长短时序上下文网络用于活跃说话人检测
该研究提出了一种名为 LoCoNet 的模型,包含长期内讲话者历史和短期内各个讲话者之间的交互信息,使用自注意力机制和卷积块分别建模两种信息,并在多个数据集上取得了最先进的表现。
PDF
a year ago
音视频线索的更佳应用:基于双模变换器的密集视频字幕
本文介绍了一种基于 Transformer 结构的双模态编码器,用于处理 Dense Video Captioning 任务,通过同时处理视频和音频两种输入,该模型在 ActivityNet Captions 数据集上取得了出色的性能表现。
PDF
4 years ago
Prev
Next