无需训练:探究用随机编码器进行句子分类
本研究介绍了一种生成句子嵌入向量的模型,旨在实现到其他自然语言处理任务的迁移学习,并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移,并可以在极少量监督训练数据的情况下实现出人意料的良好表现。
Mar, 2018
本文考察了未经训练的随机初始化编码器在一般的序列到序列模型中的性能,以及在抽象概括任务中与完全训练过的编码器的性能进行了比较。结果表明,未经训练的随机初始化编码器的架构在性能方面与完全训练过的编码器的等效架构相媲美。同时,编码器的容量不仅改进了整体模型的泛化能力,而且还弥补了未经训练的随机初始化编码器与完全训练过的编码器之间的性能差距。据我们所知,这是首次对具有注意力的一般序列到序列模型进行无训练和随机投影表示的抽象概括评估。
Feb, 2020
本文提出了一种无需人工标注的数据集构建方法,使用双语文本语料来 fine-tune Transformer 语言模型,并加入一个循环池层构建出有效的特定语种句子编码器,该方法在单张图形卡上使用不到一天时间训练,在波兰语的八个语言任务上实现了高性能,超越了最好的多语言句子编码器。
Jul, 2022
使用生成模型从灰盒句子嵌入中检索离散句子作为一项新的非监督探测任务,并表明其与下游任务性能的相关性,同时展示不同编码器生成的语言存在差异。应用该方法从句子嵌入中生成句子类比。
Nov, 2020
本文提出了一种轻量级的卷积神经网络结构,可用于创建句子的定长向量嵌入表示,可应用于构建自然语言处理系统,包括对话代理,经过优化的卷积神经网络架构可显著缩短学习时间,减少参数数量,提高自编码准确率,并通过 SentEval 基准套件评估所建模型所创建的表示,并表明这可以作为流行的词袋表示形式的更好的但资源要求较低的选择。
Aug, 2018
该论文的第一部分介绍了词嵌入的必要性、创建方法、有趣的属性及其与图像嵌入的比较;第二部分实现了一个基于预训练词向量的卷积神经网络,用于几个句子级分类任务,取得了与最先进技术相当或领先的结果,说明与随机的词向量相比,预训练的词向量具有强大的能力。
Oct, 2016
本研究提出了一种无监督学习的句子编码器,使用连续的文本数据训练编码器 - 解码器模型,并通过线性模型对其进行了 8 项任务的评估,结果表明该编码器具有高度泛化的句子表示能力,可在实践中发挥良好的效果。
Jun, 2015
本文介绍了一组有效的互补方法,用于将表示馈送到预训练的无条件语言模型中,以及一组方法来映射句子到该表示空间中,并通过找到点的方式调查语言模型生成句子的可能性。我们发现,可以不修改任何模型参数,使用中等大小的表示和语言模型几乎完美地恢复任意句子。
Jul, 2019
本研究探讨了利用 Stanford 自然语言推断数据集的监督学习训练通用句子向量表示,相比于 SkipThought 等无监督方法,该方式在多种迁移学习任务中表现更优,因此表明自然语言推断适用于迁移学习。
May, 2017
本文提出一种从未标记数据中学习句子表示的简单有效的框架,通过将句子出现的上下文预测问题重新表述为分类问题,并基于句子向量表示来区分上下文句子和对比句子,并在多个下游 NLP 任务中展示了高质量的句子表示的超越性能以及训练时间的数量级加速。
Mar, 2018