本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法,通过TF-IDF变换提供的Shannon词熵拟合词向量的权重,选择不同的超参得出短期训练、在线推理的句子表示,经过与STS系统的对比表明,该方法在语义文本相似度模型中的表现已达到最优。
Oct, 2017
本文目的在于通过学习一种中间的representation space将视觉信息转移到文本表示中,以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题,作者还提出了两个新的目标,来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。
Feb, 2020
本文通过设计一种探针模型,研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度,并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果,而文本上下文在该过程中发挥了重要作用,但比起人类,具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究,进一步地理解和改善语言模型的视觉能力。
May, 2020
本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示,结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型,因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。
Sep, 2021
该研究探讨了对比视觉语义预训练的影响,通过比较GPT-2和CLIP形成的英语语言表示的几何和语义特性,发现对比视觉语义预训练显著缓解了GPT-2上存在的各向异性,提供了较好的词级和句级的语义表示效果。
Mar, 2022
本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法,使得即使对于抽象词,我们也能生成受视觉基础支撑的嵌入,并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词,还有益于抽象词。
Jun, 2022
本文提出了一种新的视觉增强微调方法,名为VAWI,该方法能够将视觉语义注入到不同PLMs或自然语言处理任务中,通过使用视觉饥饿字词的固定CLIP文本编码器来产生视觉增强表示,引入了视觉语义,实验结果表明该方法能够改善BERT、RoBERTa、BART和T5的性能,并显著优于其他竞争基线。
Dec, 2022
本文提出了一种新方法来将视觉信息作为协助信号用于NLP任务,使用Transformer编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。
Jan, 2023
通过利用大型语言模型的生成和评估能力,我们提出了SemCSR,一种语义感知的对比句子表示框架,可以自动构建高质量的NLI风格语料库,并将生成的句子对纳入对比句子表示模型的学习,实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。
Oct, 2023
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。