视频检索中的否定理解学习

MMApr, 2022

Learn to Understand Negation in Video Retrieval

Ziyue Wang, Aozhu Chen, Fan Hu, Xirong Li

TL;DR本研究使用现有数据集 (VATEX, MSR-VTT) 重新构建评估协议，提出了一种基于学习的方法来训练具有否定意义的视频检索模型，该方法通过部分否定原标题来为特定训练视频构建软负标题，然后计算三元组的双向约束损失，将这个辅助损失加权到标准检索损失中。实验证明，使用所提出的方法重新训练 CLIP 模型能够明显提高处理具有否定查询的能力，同时还提高了模型在原始基准测试中的表现。

Abstract

negation is a common linguistic skill that allows human to express what we do NOT want. Naturally, one might expect video retrieval to support natural-language queries with →

negation video retrieval deep learning dataset clip model

发现论文，激发创造

学会更好地说 “是” 的方法：通过否定改进视觉语言模型

通过引入 CC-Neg 数据集和 CoN-CLIP 框架，我们的工作解决了视觉语言模型中一个重要的局限性，加强了图像和文本之间的语义关联，展示了具有显著降低计算成本的改进型大规模基础模型，提升了效率和可访问性。

Mar, 2024

NevIR: 神经信息检索中的否定

该研究构建了一个主题为否定形式对神经信息检索的影响的基准测试数据集，发现跨编码器表现最好，晚交互模型次之，对数器和稀疏神经架构最差。同时研究表明，当存在否定形式时，大多数当前的信息检索模型表现相似或不佳，而本研究在对比文本数据集的继续优化和扩大模型尺寸方面，虽然提高了性能，但仍存在机器与人之间的巨大差距。

May, 2023

NegatER：基于常识知识库的负例自动发现方法

该研究提出了 NegatER 框架，使用上下文语言模型对常识知识库中的负面语句进行排序，不需要真实的负面数据，有助于完成知识库中的缺失信息。实验结果证明，与多种数据扩增方法相比，NegatER 产生的负面语句更合理、更连贯、更具有信息量，以显著地提高知识库补充任务的准确性，证实了语言模型中的正面知识可以 “重新利用” 来生成负面知识。

Nov, 2020

利用否定中的积极解释来提高自然语言理解

通过自动搜集否定语句及其肯定解释，本文提出了一种基于神经网络的生成模型，使得 RoBERTA 分类器在自然语言推理和情感分析任务中得到更好的结果。

Oct, 2022

理解非理解：在语言模型中建模否定

本文针对自然语言中否定句的建构，借助负面通用语句的反向学习目标，优化了 BERT 语言模型，将 negated LAMA 数据集的平均 top1 错误率降至 4％，并在 negated NLI 基准测试中看到了一些改进。

May, 2021

这不是一个数据集：一个用于挑战大规模语言模型的大规模否定评估基准

大型语言模型在理解否定时表现亚优，本研究通过引入一个大规模自动生成的常识知识数据集，涉及到约 40 万个描述性句子，其中大约 2/3 的句子包含否定形式，使用零样本学习方法对现有开源语言模型进行测试，结果表明尽管模型对于肯定的句子有较高准确性，但在否定句子方面存在困难，缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能，但在处理否定方面仍然存在泛化能力不足的问题，突显出大型语言模型在否定理解和泛化方面仍面临挑战。

Oct, 2023

自然语言理解语料库中否定语分析

本文研究分析了 6 个自然语言理解的任务中，八个流行的语料库中的否定词的使用情况，指出这些语料库中的否定词较少且不重要，而最新的 transformers 在处理含有重要的否定词的实例时表现不佳，因此需要新的包含否定词的语料库来解决自然语言理解任务中的问题。

Mar, 2022

利用针对否定的预训练来改善否定检测

本文提出了一种新的针对否定语的预训练策略，包括有针对性的数据增强和否定掩蔽，以更好地将否定信息纳入语言模型。在常见的基准测试中进行的广泛实验显示，我们提出的方法提高了否定检测性能和泛化能力，超过了强基线 NegBERT (Khandewal 和 Sawant, 2020)。

May, 2022

动词在行动：提高视频语言模型中动词理解能力

本研究提出了一个新的以动词为中心对比学习（Verb-Focused Contrastive，VFC）框架，以改善基于 CLIP 的视频语言模型的动词理解。该方法采用预训练的大型语言模型（LLMs）创建难样本进行跨模态对比学习，以及实施细粒度的动词短语对齐损失。该方法在三个下游任务上实现了零射击性能的最新成果，包括视频文本匹配、视频问答和视频分类。

Apr, 2023

VSE++：使用硬负例改进视觉 - 语义嵌入

利用视觉 - 语义嵌入的新技术进行跨模态检索，通过采用 hard negative mining，结构化预测中的 hard negatives 和排名损失函数的结合，对多模态嵌入的常见损失函数进行简单改变，在微调和使用增强数据的情况下获得了显著的检索性能提升。作者在 MS-COCO 和 Flickr30K 数据集中展示了他们的方法 VSE ++，并使用消融研究和与现有方法的比较。在 MS-COCO 的图像和标题检索中，他们的方法在 R@1 上比现有技术方法分别提高了 11.3％和 8.8％。

Jul, 2017