Skip-Thought 向量

Jun, 2015

Skip-Thought Vectors

Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba...

TL;DR本研究提出了一种无监督学习的句子编码器，使用连续的文本数据训练编码器 - 解码器模型，并通过线性模型对其进行了 8 项任务的评估，结果表明该编码器具有高度泛化的句子表示能力，可在实践中发挥良好的效果。

Abstract

We describe an approach for unsupervised learning of a generic, distributed sentence encoder. Using the continuity of text from books, we train an encoder-decoder model that tries to reconstruct the surrounding s

unsupervised learning sentence encoder semantic properties linear models off-the-shelf encoder

发现论文，激发创造

用于改写和文本摘要的语义句子嵌入

介绍了一种适用于高级自然语言处理的句子向量编码框架，该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要，使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。

Sep, 2018

使用概念器的句子表示连续学习

该论文提出了一种针对句子表示的持续学习场景，通过使用独立于语料库的特征对句子编码器进行初始化，并使用布尔运算的概念器矩阵来连续更新句子编码器，该方法可以在保持先前语料库准确性的基础上，从新的语料库中学习特征；并在语义文本相似性任务上对该方法进行了评估，表明该方法可以不断地学习新的语料库特征而保留其在先前语料库上的能力。

Apr, 2019

深度学习中文本数据的向量表示

本文研究了稠密分布式文本数据表示的两种新型神经模型：一种用于学习文档级表示，另一种用于学习词级表示。我们提出的模型分别在信息检索和语义关系识别等任务中优于现有方法，并且直接从原始文本数据中学习嵌入。其中，词级表示模型不同于以往的模型，可以用梯度下降算法进行训练。

Jan, 2019

词语和短语的分布式表示及其组合性

本文介绍了连续 Skip-gram 模型的扩展方法，包括减少常见词的子采样、负采样优化、短语学习等，以提高单词向量的质量和训练速度，为解决单词顺序和习惯用语表示上的问题提供了简单的解决方法。

Oct, 2013

使用段落向量进行文档嵌入

本文针对段落向量的应用进行研究，评估其在文本相似度计算方面的性能，同时探究其向量操作在语义任务上的效果。通过对比潜在狄利克雷分布模型等其他文本建模算法，实验结果表明段落向量方法在性能上优于其他方法，并提出了改进模型提高嵌入质量的简单方法。

Jul, 2015

从自然语言推理数据中监督学习通用句子表示

本研究探讨了利用 Stanford 自然语言推断数据集的监督学习训练通用句子向量表示，相比于 SkipThought 等无监督方法，该方式在多种迁移学习任务中表现更优，因此表明自然语言推断适用于迁移学习。

May, 2017

贝叶斯段落向量

本文提出了一种基于神经网络的段落向量的新解释，基于概率论的方法可以通过后验不确定性来在监督学习任务中提升性能，进一步提高了段落向量的研究应用。

Nov, 2017

LTSG: 潜在主题 Skip-Gram 用于相互学习主题模型和向量表示

本文提出一种能够在同一语料库内相互改进的主题模型和向量表示相互改进的算法框架，采用 EM 算法框架对主题模型和向量表示进行迭代优化，实验结果表明，该模型优于各种 NLP 任务的最新方法。

Feb, 2017

高效纯卷积文本编码

本文提出了一种轻量级的卷积神经网络结构，可用于创建句子的定长向量嵌入表示，可应用于构建自然语言处理系统，包括对话代理，经过优化的卷积神经网络架构可显著缩短学习时间，减少参数数量，提高自编码准确率，并通过 SentEval 基准套件评估所建模型所创建的表示，并表明这可以作为流行的词袋表示形式的更好的但资源要求较低的选择。

Aug, 2018

通用句子编码器

本研究介绍了一种生成句子嵌入向量的模型，旨在实现到其他自然语言处理任务的迁移学习，并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移，并可以在极少量监督训练数据的情况下实现出人意料的良好表现。

Mar, 2018