基于视觉语境的多模态词表示学习
本研究通过将视觉信息纳入 SKIP-GRAM 模型,创新性地提出了一种多模式的词向量表达方式,并取得了良好的语义基准表现。同时,该模型还能够将视觉信息传递到所有词中,用于改进零样本图像标注和检索,并探索了抽象词汇的有趣视觉属性,为意义的具体化实现奠定了基础。
Jan, 2015
本论文提出从视觉共现学习词嵌入表示,并通过多任务对数双线性模型进行训练,以将每种共现类型所表示的单词“含义”紧凑地编码为单个视觉单词向量,最终在五个下游应用中验证了提出的词嵌入方法的有效性和各方面优点。
Aug, 2019
本文通过设计一种探针模型,研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度,并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果,而文本上下文在该过程中发挥了重要作用,但比起人类,具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究,进一步地理解和改善语言模型的视觉能力。
May, 2020
本篇论文提出了一种探测任务的方法,通过训练分类器来比较各种最新的文本-图像语义嵌入,揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明,视觉-语义嵌入的识别准确率比单媒体嵌入提高了12%以上。
Feb, 2021
本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法,使得即使对于抽象词,我们也能生成受视觉基础支撑的嵌入,并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词,还有益于抽象词。
Jun, 2022
本文提出了一种新方法来将视觉信息作为协助信号用于NLP任务,使用Transformer编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。
Jan, 2023
本研究比较了来自不同模型的单词嵌入,在46个语义参数中识别出最受视觉语境影响的单词,并发现视觉模态效应与涉及具体性的指示语义属性最相关,但也适用于多个特定的语义类别,以及与情感相关的联想语言表达的倾向属性。
Jun, 2023
大型多模态模型通过仅微调单个词嵌入就能生成、检测和分类新的视觉概念,但我们发现模型学习相似的词语表示同一概念的能力是模型特定且不可转移的。我们对三种先进模型在文本到图像生成、开放集目标检测和零样本分类领域进行了大规模分析,发现新的词嵌入是模型特定且不可转移的。我们在四个标准数据集上针对40个不同的视觉概念训练了4800个新的嵌入,发现在一个epsilon球内的任何先前嵌入的扰动都能生成、检测和分类任意的概念。当这些新的词嵌入被插入新模型时,针对原始模型的微调将失效。我们展示了流行的软提示微调方法在视觉概念学习任务中发现这些扰动解,而视觉概念的嵌入是不可转移的。可复现我们工作的代码可在此https网址找到。
Jun, 2024
本文关注词嵌入和语言模型在自然语言处理中的重要性,探讨了从稀疏表示到密集嵌入的演变,尤其是在跨语言和个性化应用中的进展。作者提出了多模态嵌入的应用,分析了模型压缩与解释性等高级主题,并强调了未来研究方向,包括可扩展训练技术和非文本模式的稳健基础。该研究为推动嵌入基础语言模型的边界提供了深入的资源。
Nov, 2024