一种简单的即插即用无监督句子表示增强方法
本研究提出了一种基于 AMR 的修改短语生成模型 (AMRPG),该模型通过对抽象含义表示进行编码,从而在语法控制和短语生成质量方面显着提高了非监督学习方法的性能,并可用于数据增强以改善 NLP 模型的鲁棒性。
Nov, 2022
本研究探讨了利用 Stanford 自然语言推断数据集的监督学习训练通用句子向量表示,相比于 SkipThought 等无监督方法,该方式在多种迁移学习任务中表现更优,因此表明自然语言推断适用于迁移学习。
May, 2017
本文提出了一种无需人工标注的数据集构建方法,使用双语文本语料来 fine-tune Transformer 语言模型,并加入一个循环池层构建出有效的特定语种句子编码器,该方法在单张图形卡上使用不到一天时间训练,在波兰语的八个语言任务上实现了高性能,超越了最好的多语言句子编码器。
Jul, 2022
通过视觉表征学习方法及无监督学习,我们提出了一种对文本进行语义学习的框架,借鉴认知科学和语言学的概念,利用错别字和词序混排等方法进行文本扰动,实现对文本的连续感知,并通过大规模无监督主题对齐训练和自然语言推理监督,达到与现有自然语言处理方法相当的语义文本相似度性能,展示了方法的跨语言迁移能力和语言迭代训练中的独特突破模式。
Feb, 2024
本研究挑战了从预训练语言模型(PLMs)中获得句子嵌入所必须的显式单字限制的普遍观点,并通过实验证明了这种方法对于判别模型或生成型 PLMs 的精调并非必需。在此基础上,我们提出了两种创新的提示工程技术,可以进一步增强 PLMs 原始嵌入的表达能力:假装的思路链和知识增强,并详细研究了导致其成功的潜在因素。
Apr, 2024
介绍了一种适用于高级自然语言处理的句子向量编码框架,该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要,使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。
Sep, 2018
本文系统地比较了学习分布式短语或句子表示方法的模型,并发现最佳方法取决于预期应用程序,对于 supervised 系统,更深层次、更复杂的模型更具优势,但建立可通过简单空间距离指标解码的表示空间最好采用浅的 log-linear 模型。我们还提出了两个新的无监督表示学习目标,旨在优化训练时间、领域可移植性和性能之间的平衡。
Feb, 2016
我们提出了一种新方法 UPSA,它利用模拟退火实现无监督的同义词生成。我们将同义词生成建模为一个优化问题,并提出了一个复杂的目标函数,涉及同义词的语义相似性、表达多样性和语言流畅性。然后,UPSA 通过执行一系列局部编辑来朝着这个目标搜索句子空间。我们的方法是无监督的,不需要平行语料库进行训练,因此可以轻松应用于不同的领域。我们在各种基准数据集上评估了我们的方法,即 Quora、Wikianswers、MSCOCO 和 Twitter 等。广泛的结果表明,UPSA 在自动和人工评估方面都实现了与以前的无监督方法相比的最先进性能。此外,我们的方法优于大多数现有的领域自适应监督模型,显示了 UPSA 的通用性。
Sep, 2019
本文介绍了一种简单但高效的无监督学习方法,用于训练分布式表示的句子嵌入。该方法在大多数基准任务中性能优于最先进的无监督模型,突显了所产生的通用句子嵌入的健壮性。
Mar, 2017
本文提出了一种名为 PAUSE 的模型,它通过部分标注数据集学习高质量的句子嵌入向量,并在各种基准测试任务上达到甚至超过当前最先进水平,尤其适用于工业场景下标注数据稀缺的情况。
Sep, 2021