BriefGPT.xyz
大模型
Ask
alpha
关键词
audio visual scene-aware dialog
搜索结果 - 3
AAAI
基于 Transformer 的视频表示的视听场景感知对话生成
本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog(AVSD)中解决长期时间视觉依赖和全局视觉信息的问题,并在答案生成方面取得了更高的目标性能评分。
PDF
2 years ago
AAAI
DSTC8-AVSD:多模态语义 Transformer 网络及检索式词汇生成器
提出了一种多模态语义变形器网络,基于注意力词嵌入层的变形器架构和查询单词嵌入层生成单词。该模型在 AVSD 任务中取得了优异的表现。
PDF
4 years ago
AAAI
面向场景感知对话系统的多步骤多模态注意力网络
本文提出了一种基于循环神经网络的多步关注机制的多模态联合注意网络(JMAN),用于对视频进行推理,该模型在每个推理过程中联合考虑了视觉和文本表示,以更好地集成两种不同模态的信息。与 AVSD 组织发布的基线相比,我们的模型在 ROUGE-L
→
PDF
4 years ago
Prev
Next