BriefGPT.xyz
Ask
alpha
关键词
avsd dataset
搜索结果 - 3
使用视听 Transformer 进行场景感知对话和推理,并进行联合师生学习
本文介绍了第三个 AVSD 挑战赛,其包括时间推理的任务和新的数据集,在这个数据集中,人类生成了时间推理数据。文章提出了基于 AV-transformer 的基线系统,并通过注意力多模态融合、联合师生学习和模型组合技术扩展了基线系统,提高了
→
PDF
3 years ago
交互式视频检索与对话
本研究介绍了一种基于交互对话的视频检索系统,能够帮助用户在包含许多类似的视频中快速准确地找到目标视频,并通过 AVSD 数据集的实验证明了系统的有效性。
PDF
5 years ago
视听场景感知对话
本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了 AVSD 数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对
→
PDF
5 years ago
Prev
Next