句子嵌入的构成对比学习

ACLJul, 2023

Composition-contrastive Learning for Sentence Embeddings

Sachin J. Chanchani, Ruihong Huang

TL;DR通过最大化同一文本最小扰动嵌入之间的对齐，以及在更广泛的语料库中鼓励嵌入的均匀分布，基于对比学习的各种方法已被提出来从未标记的数据中学习文本表示。不同的是，我们提出最大化文本和其短语成分组成之间的对齐，考虑了此目标的多种实现方法，并详细阐述了每种情况下对表示的影响。语义文本相似性任务上的实验结果显示，与最先进的方法相当的基线改进。此外，本工作是第一个这样做而不需要额外网络参数或辅助训练目标的工作。

Abstract

Vector representations of natural language are ubiquitous in search applications. Recently, various methods based on contrastive learning have been proposed to learn textual representations from unlabelled data; by maximizing alignment between minimally-perturbed embeddings of the same

vector representation contrastive learning textual similarity phrasal constituents unlabeled data

发现论文，激发创造

MCSE: 句子嵌入的多模态对比学习

本文提出了一种基于多模态对比目标的句子嵌入学习方法，利用同时包含视觉和文本信息的数据提高了语义相似性任务的性能，并通过分析文本嵌入空间的性质解释了本方法提高性能的原因。

Apr, 2022

评估句向量表示中的组成

文章介绍了一种可以精确和控制地针对句向量中的组合含义信息的方法，利用一个专门的句子生成系统，创建遵循特定句法、语义和词汇约束条件的带注释的大型句子集。实验表明，这种方法能够从多种现有的句子表示模型中提取有用的信息，有助于理解这些系统对句子信息的捕获能力。

Sep, 2018

最佳综合嵌入

本文介绍一种基于词嵌入组合方法，该方法旨在通过满足新向量与其组成部分的向量表示之间的距离一致且最小化来实现给定一组词的公平嵌入表示。该嵌入组合方法可适用于静态和上下文相关的词表示，适用于创建句子的表示，并学习不一定按序组织的词组的表示。我们理论上表征了这种表示存在的条件并推导了解决方案。我们在数据增强和句子分类任务中评估了该方法，研究了嵌入和组合方法的多种设计选择。我们展示了我们的方法在解决用于捕捉句子简单语言特征的探测任务方面的卓越效果。

Jun, 2024

使用组成性 n-Gram 特征进行句子嵌入的无监督学习

本文介绍了一种简单但高效的无监督学习方法，用于训练分布式表示的句子嵌入。该方法在大多数基准任务中性能优于最先进的无监督模型，突显了所产生的通用句子嵌入的健壮性。

Mar, 2017

从对比微调的语言模型中提取语义概念嵌入

提出通过对比学习策略来改进概念嵌入的语义表示方法，使用全新的 contextualized vectors 代替传统平均表示方法，可优化概念嵌入中的语义属性，使得使用该方法后的概念嵌入能在预测语义属性上显著突出于传统概念嵌入方法，尤其是使用 ConceptNet 的方法的效果最佳。

May, 2023

基于大型语言模型的语义感知对照句子表示学习

通过利用大型语言模型的生成和评估能力，我们提出了 SemCSR，一种语义感知的对比句子表示框架，可以自动构建高质量的 NLI 风格语料库，并将生成的句子对纳入对比句子表示模型的学习，实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。

Oct, 2023

对比学习句向量的非语言监督

本文提出了一种多模态多任务的 Transformer 模型，通过对句子和非语言数据对比学习的方式来提高句子编码器的性能，并在基准测试中获得了更高质量的语义文本相似性结果。

Sep, 2022

从零开始对句子嵌入进行对比学习

本研究提出了 SynCSE，通过利用大型语言模型合成数据样本，训练具有良好性能的句子嵌入，对比试验结果显示 SynCSE 在无监督基准模型的基础上具有更好的性能。

May, 2023

评估句子嵌入中的组合性

本文介绍了一个新的自然语言推理任务数据集，旨在解决人工智能中的句子组成意思的问题，使用深度神经网络学习语义向量表示法，得出发现表明 Inference 等现有句向量算法性能较差，但使用本文提供的数据集进行训练，可提高测试性能和提高人工智能系统的表现水平。

Feb, 2018

针对深度组合模型的语法感知多义词嵌入

本研究详细介绍了一个基于丰富的单词嵌入的组成分布式框架，旨在促进句子中单词之间的交互，并使用环境中的句法信息来增强向量。研究结果表明，该框架在 MSRPar 任务上取得了具有代表性的结果。

Aug, 2015