利用 Twitter 作为大语料库的来源，用于语义句子嵌入中的弱相似对

EMNLPOct, 2021

利用 Twitter 作为大语料库的来源，用于语义句子嵌入中的弱相似对

Exploiting Twitter as Source of Large Corpora of Weakly Similar Pairs for Semantic Sentence Embeddings

Marco Di Giovanni, Marco Brambilla

TL;DR本文提出了以 Twitter 数据集为基础的无监督 Transformer 模型，通过解析 Twitter 回复和引用语句来构建海量的非正式文本句子的成对数据集，从而训练生成的语义句子向量，不仅在经典语义文本相似度任务中表现出色，而且在非精确参数化相似句子任务上表现突出。

Abstract

semantic sentence embeddings are usually supervisedly built minimizing distances between pairs of embeddings of sentences labelled as semantically similar by annotators. Since big labelled datasets are rare, in particular for non-English languages, and expensive, recent studies focus o

semantic sentence embeddings unsupervised approaches twitter dataset transformer model informal text

发现论文，激发创造

一个不断增长的句子释义数据集

本文提出了一种从 Twitter 采集大规模句子释义的新方法，通过链接共享的 URL，并展示了可以轻松捕捉新的句子释义以及利用其进行下游自然语言处理任务的效用。

Aug, 2017

学习极短文本的语义相似性

研究了基于单词嵌入和 tf-idf 相似性的方法，用于匹配短文本片段，并得出使用两种方法的混合方法可以更好地模拟非常短的文本片段中的语义内容。

Dec, 2015

从对话学习语义文本相似度

本论文通过学习使用对话数据学习句子级语义相似性的新方法，利用无监督模型预测对话输入响应对以训练，导出的句子嵌入在语义文本相似性基准测试和 SemEval 2017 的 CQA 问题相似性子任务上表现良好。通过介绍同时进行对话输入响应预测任务和自然语言推理任务的多任务训练来进一步改善性能。广泛的实验显示，所提出的模型在 STS 基准测试中达到了所有神经模型中最佳性能，并且在两个任务中的工程特征和混合系统方面与最先进的混合系统竞争。

Apr, 2018

用于复述识别、语义文本相似性、自然语言推理和问答的神经网络模型

本文分析了几种神经网络设计（及其变体），对八个数据集进行了广泛的比较，包括释义识别、语义文本相似性、自然语言推断和问题回答等任务。我们提供了一个系统的研究，表明编码上下文信息的 LSTM 和句间交互至关重要，而 Tree-LSTM 并不能像先前宣传的那样有所帮助，但却出人意料地提高了 Twitter 数据集的性能；增强顺序推理模型是迄今为止较大数据集的最佳选择，而基于词对交互的模型在较少数据可用时实现最佳性能。我们将我们的实现作为开源工具包发布。

Jun, 2018

Twitter100k：用于弱监督跨媒体检索的真实世界数据集

本文提出了 Twitter100k 数据集和一种基于弱监督的学习方法，在跨媒体检索任务中实现了更好的性能，并提出基于 OCR 的跨媒体检索方法，并在 Twitter100k 数据集上得到了验证。

Mar, 2017

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Sep, 2015

基于加权词向量聚合的极短文本表示学习

该研究构建了一种基于语义词嵌入和频率信息的方法，用于捕捉短文本间的语义相似性并设计了基于权重模型和一种基于中位数损失函数的学习过程，实现得到低维度的文本表示，实验证明该方法在维基百科和 Twitter 数据上表现优异且具有较好的泛化性能。

Jul, 2016

显式配对词交互建模改善预训练 Transformer 在英语语义相似性任务中的性能

本研究使用 BERT 模型，通过引入显式的有限制的单词成对交互机制，提高了语义相似度和答案句子选择等 4 项任务的性能。

Nov, 2019

语言无关立场检测的关系嵌入

该研究提出了一种利用社交信息生成关系嵌入的新方法，该方法可以应用于任何语言和目标，有助于在社交网络上进行立场检测。实验证明，将我们的关系嵌入与文本方法相结合可以显著提高性能。

Oct, 2022

使用双语句子嵌入的有效并行语料库挖掘

该研究提出了一种有效的并行语料库挖掘方法，使用双语句子嵌入进行训练，通过引入硬负例来实现。该方法是基于语义相似度的，结果表明该方法可以用于重建平行文本，从而训练出 NMT 模型，与使用原始数据训练的模型相差不大。

Jul, 2018