本文提出了一种多模态学习的编码器-解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用LSTM进行句子编码,该模型在Flickr8K和Flickr30K数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
本文介绍了一项新任务:为动词进行视觉意义消歧,以此作为多模态任务如图像检索和图像描述的基础,并提出了基于Lesk算法的无监督算法来执行视觉意义消歧,说明了在有和无标注图像情况下,文本嵌入和多模态嵌入的性能。本文最终提供了VerSe数据集,并提供了下载链接。
Mar, 2016
本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法,通过将视觉上下文元素整合到多模态skip-gram模型中,探索了何种因素可以作为视觉上下文,并进行了实验和分析。
Nov, 2017
该论文提出了统一的视觉语义嵌入方法,采用对比学习的方法从仅有的图像-标题对中对不同水平的概念进行对齐,对于句子中出现的语义组件进行了有效处理,证明该方法具有鲁棒性和可靠性。
Apr, 2019
本论文提出从视觉共现学习词嵌入表示,并通过多任务对数双线性模型进行训练,以将每种共现类型所表示的单词“含义”紧凑地编码为单个视觉单词向量,最终在五个下游应用中验证了提出的词嵌入方法的有效性和各方面优点。
Aug, 2019
本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法,使得即使对于抽象词,我们也能生成受视觉基础支撑的嵌入,并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词,还有益于抽象词。
Jun, 2022
本文提出了一种新方法来将视觉信息作为协助信号用于NLP任务,使用Transformer编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。
Jan, 2023
本研究比较了来自不同模型的单词嵌入,在46个语义参数中识别出最受视觉语境影响的单词,并发现视觉模态效应与涉及具体性的指示语义属性最相关,但也适用于多个特定的语义类别,以及与情感相关的联想语言表达的倾向属性。
Jun, 2023
本研究针对当前通用多模态嵌入模型发展缓慢的问题,提出了一种新的方法VLM2Vec,通过对视觉-语言模型进行对比训练,从而生成适用于多种下游任务的固定维度向量。研究表明,VLM2Vec在大规模多模态嵌入基准测试中,相比现有模型有着10%到20%的显著性能提升。
Oct, 2024
本文关注词嵌入和语言模型在自然语言处理中的重要性,探讨了从稀疏表示到密集嵌入的演变,尤其是在跨语言和个性化应用中的进展。作者提出了多模态嵌入的应用,分析了模型压缩与解释性等高级主题,并强调了未来研究方向,包括可扩展训练技术和非文本模式的稳健基础。该研究为推动嵌入基础语言模型的边界提供了深入的资源。
Nov, 2024