KAT:一种知识增强的视觉与语言 Transformer 模型
QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法,通过将问题感知能力直接嵌入到视觉编码器中,实现动态视觉特征,并且可以有效地应用于各种多模态架构,提高对视觉和场景文本的理解能力。
Feb, 2024
本文研究了将通用知识库中的知识注入视觉 - 语言模型中,并通过辅助训练目标增加了语义和关系知识的表征,实现了对问题回答、视觉推理等任务中的性能提升,这种技术不依赖于特定的模型,具有较小的计算开销。
Jan, 2021
本文研究了视觉问答中的开放域知识问题,并提出了一种结合隐式知识和符号知识表示的方法 KRISP,大大提高了模型的性能和泛化能力。
Dec, 2020
本论文旨在提出一种有系统的方法将外部知识图谱融入 Transformer 模型中,以解决在语言模型中存在的幻觉和对人类用户生成无用和不安全输出的问题,并在 GLUE 基准测试任务上进行大量实验证明其有效性。
Jun, 2023
通过使用来自相关领域的外部知识资源,在 KSAT 中引入了知识注入的自我关注层,从而实现了对多个领域特定上下文的集成。KSAT 提供了控制从数据中学习与从知识中学习之间的权衡的机制,并与其他知识注入基线相竞争,显着优于使用精调进行领域特定任务的基线。
Oct, 2022
基于知识的视觉问答(KVQA)对于利用外部知识,如知识图谱(KGs)来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法(MAIL),用于 KVQA,它巧妙地利用多模态知识进行图像理解和知识推理,并在两个基准数据集上的实验证明了 MAIL 的卓越性能。
Feb, 2024
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均 4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
提出了 Efficient Memory-Augmented Transformer (EMAT) 作为一种结合参数式模型和检索式增强模型的方法,有效地利用外部知识源以提高自然语言处理任务的准确性和计算效率。通过将外部知识编码为键值内存,并利用内积搜索来查询,使用预训练任务编码有信息的键值表示,并学习将多个内存插槽集成到变压器中的隐式策略,EMAT 在众多知识密集型任务上取得了更准确的结果。
Oct, 2022
本论文中,我们研究了一种基于 kNN 记忆的图像字幕生成方法,其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明,采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。
Jul, 2022