模态转移中的杠杆点:比较仅语言和多模态词表示
本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法,通过将视觉上下文元素整合到多模态skip-gram模型中,探索了何种因素可以作为视觉上下文,并进行了实验和分析。
Nov, 2017
本文目的在于通过学习一种中间的representation space将视觉信息转移到文本表示中,以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题,作者还提出了两个新的目标,来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。
Feb, 2020
本篇论文提出了一种探测任务的方法,通过训练分类器来比较各种最新的文本-图像语义嵌入,揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明,视觉-语义嵌入的识别准确率比单媒体嵌入提高了12%以上。
Feb, 2021
本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示,结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型,因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。
Sep, 2021
本文旨在利用图像丰富文本语义模型,以更好地捕捉词汇意义的认知方面,并通过大型启动实验展示在视觉基础词嵌入中添加视觉信息的预测性能更好,其中与人类单词相似性的相关性也更高,并展示了视觉基础嵌入可以捕捉到仅使用纯文本不能提取的信息。
Feb, 2022
该研究探讨了对比视觉语义预训练的影响,通过比较GPT-2和CLIP形成的英语语言表示的几何和语义特性,发现对比视觉语义预训练显著缓解了GPT-2上存在的各向异性,提供了较好的词级和句级的语义表示效果。
Mar, 2022
本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法,使得即使对于抽象词,我们也能生成受视觉基础支撑的嵌入,并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词,还有益于抽象词。
Jun, 2022
本文探讨语言与视觉的互动方式对视觉基础单词嵌入的影响,并使用 Günther 等人(2020)的行为实验说明了基于视觉图像建模的嵌入模型在人类的行为表现上更佳。同时发现抽象概念从视觉连接的角度受到视觉基础单词的间接影响。
Jun, 2022
通过在英语、阿拉伯语和德语等语言间建立隐式的视觉及语言空间交互,研究探讨跨语言的词嵌入的视觉基础。结果表明,跨语言知识可以增强相似语言的嵌入性能,但德语或英语与阿拉伯语之间的跨语言基础稍有劣化,在归类基准上,阿拉伯语对英语改进最多。该实验为跨语言视觉基础的进一步研究提供了基础。
Sep, 2022
本文探讨了视觉图像和语言语义的组合结构问题,并提出了一些方法,如WinogroundVQA, Syntactic Neural Module Distillation, Causal Tracing for Image Captioning Models,Syntactic MeanPool 和Cross-modal Attention Congruence Regularization,以提高这种组合结构的能力。
May, 2023