BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal dialogue systems
搜索结果 - 3
ReSee:在开放域对话中通过视觉信息响应和传递细粒度视觉知识
本文提出了一种将视觉知识集成入基于文本的对话系统的方法,通过对视觉知识进行细分并从互联网或大型图像数据集中检索增强的视觉信息,实现了两个数据集(ReSee-WoW、ReSee-DD)的构建,并在所构建的对话模型(ReSee)上进行了大量的实
→
PDF
a year ago
ACL
坐标对话中的多模态物体识别
通过探索三种方法并在 SIMMC 2.1 数据集上进行评估,我们提出了一种最有效的方法 —— 场景对话对齐,相较于 SIMMC 2.1 基准提升了约 20% 的 F1 分数。我们还分析和讨论了该方法的局限性以及未来研究的潜在方向。
PDF
a year ago
AAAI
面向场景感知对话系统的多步骤多模态注意力网络
本文提出了一种基于循环神经网络的多步关注机制的多模态联合注意网络(JMAN),用于对视频进行推理,该模型在每个推理过程中联合考虑了视觉和文本表示,以更好地集成两种不同模态的信息。与 AVSD 组织发布的基线相比,我们的模型在 ROUGE-L
→
PDF
4 years ago
Prev
Next