本文综述了句子表示学习的各种方法,包括传统的和基于深度学习的技术,并对该领域的主要贡献和挑战进行了系统梳理,结论强调了句子表示学习在自然语言处理中的重要性和面临的挑战,并提出了未来研究方向和改进句子表示质量和效率的潜在途径。
May, 2023
提出了一种名为 “Paragraph Vector” 的无监督算法,用于从文本段落、句子和文档等长度可变的文本片段中学习固定长度的特征表示,该算法能够克服 Bag-of-words 模型的两个主要弱点,经实验证明,Paragraph Vectors 在文本分类和情感分析任务上取得了新的最佳表现。
May, 2014
介绍了一种适用于高级自然语言处理的句子向量编码框架,该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要,使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。
Sep, 2018
本文提出一种从未标记数据中学习句子表示的简单有效的框架,通过将句子出现的上下文预测问题重新表述为分类问题,并基于句子向量表示来区分上下文句子和对比句子,并在多个下游 NLP 任务中展示了高质量的句子表示的超越性能以及训练时间的数量级加速。
Mar, 2018
利用神经网络对单词进行矢量表示后,本文探讨了在自动文摘的语境下,矢量表示的句子向量的特性,包括其与文档向量之间的余弦相似度与句子重要性的强关联、向量语义可用于识别和纠正选择的句子和文档之间的差距以及有效摘要所需的特定维度的相关性等。同时,本文还在多种句子嵌入方法之间进行了特征比较及分析,这些洞见都可应用于远远超出自动文摘领域的句子嵌入应用。
Oct, 2018
本文系统地比较了学习分布式短语或句子表示方法的模型,并发现最佳方法取决于预期应用程序,对于 supervised 系统,更深层次、更复杂的模型更具优势,但建立可通过简单空间距离指标解码的表示空间最好采用浅的 log-linear 模型。我们还提出了两个新的无监督表示学习目标,旨在优化训练时间、领域可移植性和性能之间的平衡。
Feb, 2016
本文提出了一种新方法 RankCSE,将排名一致性和排名蒸馏与对比学习相结合,用于无监督学习句子表示,实现了语义区分的句子表示,该方法在语义文本相似性任务和转移任务中表现出优异的性能。
本研究探讨了利用 Stanford 自然语言推断数据集的监督学习训练通用句子向量表示,相比于 SkipThought 等无监督方法,该方式在多种迁移学习任务中表现更优,因此表明自然语言推断适用于迁移学习。
May, 2017
该研究提出了一种理论方法,将词嵌入和知识图谱中的实体及其关系的几何形状联系起来,以便更好地理解它们的语义结构和性能。
Feb, 2022
本文提出了一种基于相邻句子的无监督句子编码器 RankEncoder,利用相邻句子约束进行训练,在语义文本相似度性能、相似句子对的有效性和普适性等方面都较好地表现,达到了 80.07% 的斯皮尔曼等级相关性,相较于最先进技术性能有 1.1% 的绝对提升,并且在相似句子对方面提升更为显着,为 1.73%,同时证明了 RankEncoder 可以普遍适用于现有的无监督句子编码器。
Sep, 2022