- CSTS: 条件语义文本相似度
通过提出一种新的条件语义文本相似度任务 (conditional STS,C-STS),旨在找到一个针对性的自然语言条件方面来测量句子之间的相似度,可以减少 STS 的主观性和模糊性并利用多样的条件实现细粒度的相似度评估,并使用各种最先进的 - ACL针对聚类感知的无监督句子表示负采样
本文提出了 ClusterNS 这一新的对比学习方法,将聚类信息引入负样本选择,同时使用改进的 K 均值聚类算法提供难负样本和识别批内的假负样本,以解决这一问题。实验表明我们的方法在无监督句子表示学习方面的性能优于基线模型,在语义文本相似度 - PESTS: 波斯语 - 英语跨语言语义文本相似性语料库
本文为首次使用语言专家生成了一个波斯语和英语句子之间语义文本相似性语料库 (PESTS),并使用此数据集微调不同的基于 transformers 的模型,并且结果表明,使用 PESTS 数据集,XLM ROBERTa 模型的 Pearson - 减轻非监督句子表示中的过度平滑
本文介绍一种名为自对比学习(SSCL)的简单方法,用于学习无监督的句子表示,并基于该方法构建一个插入式对比框架,从而提高性能,并在语义文本相似度和转移数据集上超越了不同强大基线(如 BERT 和 SimCSE)。
- D2CSE: 基于差异感知的深度连续提示对比句子嵌入
本文提出了一种基于连续提示的差异感知深度对比句子嵌入方法(D2CSE),它可以区分相似句子的细微差异并在自我引导的情况下使用对比学习和条件替换令牌检测来执行多个任务,同时减少了训练参数数量,并且在语义文本相似度基准测试中达到了最新的表现水平 - 静态模糊词袋:一种轻量级的句子嵌入算法
该研究提出了一种名为 Static Fuzzy Bag-of-Word 模型的方法,可以在对计算资源的要求较低的情况下,为句子提供预定义维度的嵌入向量,并在语义文本相似性基准中表现出竞争性能。
- ESCL: 句子表示的等变自对比学习
本文提出了一种称为 ESCL 的方法,该方法通过等变学习任务鼓励学习到的表示对某些类型的转换敏感,从而利用敏感的变换,以改善语义文本相似度任务的对比学习,并且通过在多任务学习的角度上共享模型参数来简化算法实现。最终的结果表明,该方法与以前的 - 关系句子嵌入用于灵活语义匹配
研究了建立新的 Relational Sentence Embedding(RSE)范式以更好地发现句子嵌入潜力,提出了一种关联嵌入学习方法,作用在源句子上,推断出使用现有的 Siamese-based encoder 的对应目标句子,从学 - 广义球面文本嵌入
本文提出了一种无监督建模方法,通过引入新的相似度度量和矩阵嵌入的优化问题,可以更加灵活地表示文本嵌入,并在文档分类、文档聚类和语义文本相似性基准测试等方面得到改进的结果。
- 通过主题感知离散潜变量学习语义文本相似度
本文提出了一种基于主题的离散潜变量模型,通过向量量化学习句子对表示的共享潜空间,进一步将量化表示注入基于语义驱动的注意力机制变压器语言模型,以提高语义相似性的性能。
- 硬度样本需量化以建立可靠的评估系统:探索新任务的潜在机会
通过给基准数据集中的未注释样本打分,我们提出了一种模型评估方法,用语义文本相似性评估该任务的基于难度的分数,比单纯的评估模型性能更准确,可以避免潜在的偏差以及更广泛的应用。
- MTEB: 大规模文本嵌入基准测试
本文介绍了 Massive Text Embedding Benchmark 评估了 33 种模型在 8 种嵌入任务和 112 种语言上的表现。结果发现,没有一种嵌入方法能够完全在所有任务上占优势,因此需要进一步研究和发展通用的文本嵌入方法 - COLING不要以最后一层来评估语言模型:分层注意力池化对比学习
该论文介绍了一种基于注意力池化策略和对比学习目标的方法,可以从预训练的语言模型中提取语言学特征和层次信号,用于下游任务,并在语义文本相似度和语义搜索任务中取得了显著提升。
- 医疗临床笔记相似性估计的图增强循环学习框架
本文介绍了一种在医疗领域中处理语义文本相似度的图增强循环学习框架。该框架可以方便地在最先进的基础语言模型上实现,并通过使用基于图卷积网络的辅助网络同步训练,利用领域知识来提高其性能。研究结果表明,引入 GCN 和同步训练框架的领域知识,分别 - ACL日语文本蕴涵和相似性的组合评估
本论文介绍了 JSICK,一个从英语数据集 SICK 人工翻译而来的日语 NLI/STS 数据集。我们对不同的预训练语言模型进行了基准实验,并比较了多语言模型在日语和其他语言中的表现。压力测试实验的结果表明,当前的预训练语言模型对于单词顺序 - SIGIR专利短语语义匹配数据集
本研究介绍了一个新的人工评估的语境性短语匹配数据集,主要应用于专利和科学出版物中的技术概念,并且描述了该数据集和一些基线模型。
- ACLDiffCSE:基于差异的对比学习用于句向量
本文介绍了 DiffCSE,一个无监督的对比学习框架,可以学习敏感于原始句子和编辑后句子之间差异的句子嵌入,通过朴素的掩码和掩码语言模型中的采样获得编辑后的句子,证明了 DiffSCE 是一种等变对比学习,并在语义文本相似性任务中取得了超越 - ACL通过同态投影蒸馏压缩句子表示以用于语义检索
这篇研究提出了 Homomorphic Projective Distillation(HPD)方法来学习压缩的句子嵌入,通过增加可学习的投影层来模拟大型预训练语言模型并保留句子表示质量。作者通过不同大小的模型对语义文本相似性(STS)和语 - EMNLP基于提示对比学习和能量函数学习的改进通用句子嵌入
本文提出了一种新的基于提示的对比学习方法 (PromCSE),用于有效提高预训练语言模型 (PLMs) 的普适句子嵌入表示,在七个标准语义文本相似性任务和一个域转移语义文本相似性任务上取得了优于当前最先进的句子嵌入模型的效果。
- 来自不同监督信号的句子嵌入的比较和组合
本文探讨了两种类型的句子嵌入方法对于语义文本相似度任务性能的影响,发现 fine-tunes 预训练语言模型在自然语言推断和单词预测任务中使用能够提高性能,而且将两种方法相结合能够比单个方法取得更好的效果。