BriefGPT.xyz
Ask
alpha
关键词
video-grounded dialogues
搜索结果 - 3
ACL
多模态对话状态跟踪
本文提出了一项新的多模式对话状态跟踪任务,用于跟踪视频对话中提到的视觉对象的信息;并介绍了 Video-Dialogue Transformer Network (VDTN) 作为实现该任务的基准模型。
PDF
2 years ago
ICLR
学习语义图上的推理路径,为基于视频的对话建立基础
使用 PDC 模型通过语义图的构建和路径预测,依据对话上下文进行推理,从而在多轮视频对话中检索视觉线索并有效回答问题。
PDF
3 years ago
BiST: 视频对话的双向时空推理
提出了一种基于文本提示的高分辨率视频查询的视觉 - 语言神经框架,名为 Bi-directional Spatio-Temporal Learning(BiST)。结果表明,BiST 在视频段落检索(AVSD)基准测试中取得了有竞争力的性能
→
PDF
4 years ago
Prev
Next