历史推理:上下文感知的视觉对话
我们介绍了 MAC 网络,这是一种新颖的完全可分化的神经网络体系结构,旨在促进显式和表达推理。该模型通过将问题分解为一系列基于注意力的推理步骤来处理问题,并且通过 MAC 单元来执行每个推理步骤。该模型在视觉推理方面表现出强大、鲁棒和可解释性能力,同时需要比现有模型少 5 倍的数据来实现强大的结果。
Mar, 2018
本论文提出了一种新的基于深度学习架构的社交互动推理方法,该方法利用了多步推理能力和注意力机制,并应用于多模式扩展。实验结果表明该方法可以更好地利用多模态输入并在 Social Video 问答任务中取得了 2.5% 的准确率提升。
Oct, 2022
本文提出了一种名为 SDNet 的上下文注意力深度神经网络模型,通过整合上下文理解对话场景并从文本中提取信息,同时引入最新的 BERT 模型,提高了对话问答的精度,表现优于之前的最佳模型并创造了最好的 CoQA 排行榜结果。
Dec, 2018
本文提出了一种新的基于关联关注记忆的注意力机制,用于解决视觉对话场景下的模糊引用问题,通过在一个新的合成数据集上的实验验证,表明该模型在解决视觉引用问题的重要场景下,比现有技术水平显著提高了 16%;此外,该模型在视觉对话数据集上的表现也优于原有基线模型,而且参数数量明显更少。
Sep, 2017
该研究开发了一种基于上下文依赖词级别注重和问题引导的句子级别注意力的新型模型,以更准确地理解文本,加强上下文建模,可以在交互式问答场景中处理不完整或模糊信息,大大提升了传统 QA 模型的表现。
Dec, 2016
该研究提出了一种名为 CADNet 的方法,该方法使用上下文化注意力分层蒸馏技术,从而在 SCQA 任务中更好地抵御 ASR 噪声,最终在 Spoken-CoQA 数据集上实现了显著性能提升。
Oct, 2020
通过生成多个线索进行推理的记忆神经网络 (MCR-MemNN) 作为一种全新的框架用于视觉问答,可以更好地利用外部知识来回答更一般性的问题,并且在各模态(图像、问题和知识库)中捕捉到最相关的信息。
Dec, 2023
利用链式思维和视觉问答技术,通过评估文本嵌入方法和视觉嵌入方法的有效性,研究如何提高深度学习模型在解决多项选择问题方面的准确性,实验结果显示这些方法在增强推理和问答能力方面具有潜力。
Dec, 2023
本文提出了一种新的终端对终端的音视频多人说话识别方法 - 视觉上下文注意力模型 (VCAM),使用可用的视频信息将解码的文本分配给多个可见面孔中的一个,具有解决多人说话建模方法中的标签歧义问题,该方法实现为基于 Transformer-Transducer 的终端到终端模型,并使用来自 YouTube 视频的两个说话者音频 - 视觉重叠话语数据集进行评估,表明 VCAM 模型相对于之前报告的仅音频和音视频多人说话识别系统提高了性能。
Apr, 2022