通过文本生成解决视觉驱动对话中的引用
本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论,介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。
Jun, 2011
本研究旨在使用更好的视觉上下文测量标准,将对象识别和自然语言表达结合起来,从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明,我们的方法对于对象指称生成和理解都具有优势。
Jul, 2016
本研究提出了一个神经模块网络架构,通过引入Refer和Exclude两个新模块,在更细的词级别上执行明确且基于地面的共指解决,以解决视觉对话中的核心指代消解问题,并展示了在MNIST对话和VisDial数据集上的有效性。
Sep, 2018
本研究提出了一种基于视觉和对话环境的生成模型来产生有效指代话语,并实现了一个参照解析系统进行评估。实验结果表明,相比其它非对话背景下的模型,该模型能够产生更加有效的指代话语,而且在生成具有人类语言模式的后续指代方面表现出良好的效果。
Nov, 2020
本文介绍了新的多模态挑战 ImageCoDe,探讨当前视觉-语言模型集成上下文、包括感知和时间信息的能力。通过从一批候选图像中选择正确的图像作为回应上下文描述,验证了多种现代模型的表现,并发现相对于人类表现差距巨大。文章介绍了新的模型变体及其改进效果,希望 ImageCoDe 能够推动视觉理解领域的进步。
Mar, 2022
该论文探讨在多模态对话中,为了创建新的可视化效果,如何通过引用解析来实现用户对大屏幕可视化的引用。它描述了实体引用注释和引用解析管道,并研究了传统CRF和深度学习/转换器模型(BiLSTM-CRF和BERT-CRF)。结果表明,深度学习方法的转移学习显著提高了性能,虽然CRF仍然优于它们,但表明传统方法在低资源数据方面可能具有更好的泛化能力。
Sep, 2022
该研究提出了一种有效的方法,将预训练的纯文本语言模型转移到视觉领域,使其能够处理和生成任意交错的图像和文本数据,并在上下文图像检索和多模态对话等方面实现了强有力的效果。
Jan, 2023
本研究提出了一种基于Flamingo模型的Retrieval-augmented Visual Language Model(Re-ViLM), 支持检索外部数据库的相关知识,减少模型参数数量,适应新数据评估。研究表明,Re-ViLM显著提高了图像到文本生成任务的性能,在没有领域内数据和少量领域内数据的情况下,参数数量是基线方法的四倍。
Feb, 2023
通过利用大型语言模型的强大推理能力生成精确的与对话相关的视觉描述符,我们提出了一种新的方法,以实现与图像的无缝连接,并在对话-图像检索性能方面取得了显著的改进。
Jul, 2024
本文针对视觉基础对话中的指代表达生成(REG)问题,提出了一种新方法,以生成既具区分性又适合话语的指代表达。通过两阶段的处理方法,研究发现该方法在重排名生成的指代表达方面在文本-图像检索准确性上具有显著提高效果。
Sep, 2024