从未标注的数据中学习句子的分布式表示

Feb, 2016

从未标注的数据中学习句子的分布式表示

Learning Distributed Representations of Sentences from Unlabelled Data

Felix Hill, Kyunghyun Cho, Anna Korhonen

TL;DR本文系统地比较了学习分布式短语或句子表示方法的模型，并发现最佳方法取决于预期应用程序，对于 supervised 系统，更深层次、更复杂的模型更具优势，但建立可通过简单空间距离指标解码的表示空间最好采用浅的 log-linear 模型。我们还提出了两个新的无监督表示学习目标，旨在优化训练时间、领域可移植性和性能之间的平衡。

Abstract

Unsupervised methods for learning distributed representations of words are ubiquitous in today's NLP research, but far less is known about the best ways to learn distributed phrase or sentence representations fro

unsupervised learning distributed representations phrase representations sentence representations log-linear models

发现论文，激发创造

通过大规模多任务学习学习通用分布式句子表示

本论文探讨了利用多个训练目标来学习句子表示的多任务学习框架，提出了一种有效实现的方法，通过多项实验得出该方法可以在转移学习和低资源环境中大幅度提高语言处理的效率。

Mar, 2018

学习句子表示的高效框架

本文提出一种从未标记数据中学习句子表示的简单有效的框架，通过将句子出现的上下文预测问题重新表述为分类问题，并基于句子向量表示来区分上下文句子和对比句子，并在多个下游 NLP 任务中展示了高质量的句子表示的超越性能以及训练时间的数量级加速。

Mar, 2018

无需单词对齐的多语言分布式表示

提出了一种在多语种情况下学习分布式表征的方法，该方法将分配相似的嵌入对齐句子，并分配不对齐的句子不相似的嵌入，模型学习到的表征具有语义信息，能够应用于跨语种文档分类任务，且未使用并行数据学习到能够跨语种捕捉语义关系的表征。

Dec, 2013

从自然语言推理数据中监督学习通用句子表示

本研究探讨了利用 Stanford 自然语言推断数据集的监督学习训练通用句子向量表示，相比于 SkipThought 等无监督方法，该方式在多种迁移学习任务中表现更优，因此表明自然语言推断适用于迁移学习。

May, 2017

超越语言：句子表示的全面调查

本文综述了句子表示学习的各种方法，包括传统的和基于深度学习的技术，并对该领域的主要贡献和挑战进行了系统梳理，结论强调了句子表示学习在自然语言处理中的重要性和面临的挑战，并提出了未来研究方向和改进句子表示质量和效率的潜在途径。

May, 2023

通过分布式语言表示的反演进行文档分类

本研究论文讨论了结构和测量分布式语言模型的最新进展，指出任何分布式表示都可以通过贝叶斯原理转化为分类器，并且在 Yelp 评论的应用实验中表现良好。

Apr, 2015

改进推特的分布式表示 —— 现在和未来

通过整理有关推特的无监督学习模型，以提高其表现，进而提高情感分析、主题预测等商业应用的质量。

Jun, 2017

解码解码器：为无监督相似性任务找到最佳表示空间

简单模型在无监督相似性任务中优于复杂深度网络的实验证据，本文提供了一种基于最佳表示空间的简单而严格的解释，介绍了一种直接的方法，使深度复发模型（DRM）在不重新训练或结构修改的情况下，达到与浅层模型同等或更优的表现。

May, 2018

使用组成性 n-Gram 特征进行句子嵌入的无监督学习

本文介绍了一种简单但高效的无监督学习方法，用于训练分布式表示的句子嵌入。该方法在大多数基准任务中性能优于最先进的无监督模型，突显了所产生的通用句子嵌入的健壮性。

Mar, 2017

DeCLUTR: 无监督文本表示的深度对比学习

本文介绍 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations，是一种无监督的学习通用语句嵌入的方法，其优于仅仅使用大规模数据集。该方法扩展了基于 Transformer 的语言模型的预训练，可以在大量的未标注培训数据下达到可监管培训的质量水平，这个解决方案可以应用于没有标注数据的语言和领域。该研究的代码和预训练模型是公开的，可以轻松地适应新的领域或用于嵌入以前不见过的文本。

Jun, 2020