multi-modal dialogue systems | BriefGPT

关键词multi-modal dialogue systems

搜索结果 - 4

ACL人机对话：通过可感知的声音接收和反应展现同理心
提出了 PerceptiveAgent，一种具有共情能力的多模式对话系统，通过集成语音模态感知来识别言辞背后更深层次或更微妙的意义，实验结果表明，PerceptiveAgent 在情境理解方面表现出色，能够准确辨别发言者的真实意图，即使语言
PDF16 days ago
InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐
通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到 60 亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
PDF6 months ago
IMAD: 图像增强的多模态对话
该研究提出了一种基于多模态视角的对话系统，并通过构建 IMAD 数据集和进行基线模型训练，证明了其在图像解释、数据集建设和模型表现方面具有潜在优势。
PDFa year ago
ACL用语义相关的图片替换文本构建多模式对话数据集
本文提出创建一种包含图像的 45k 多模态对话数据集的方法，该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话，以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明，我们的数据集可以有
PDF3 years ago