学习极短文本的语义相似性

Dec, 2015

Learning Semantic Similarity for Very Short Texts

Cedric De Boom, Steven Van Canneyt, Steven Bohez, Thomas Demeester, Bart Dhoedt

TL;DR研究了基于单词嵌入和 tf-idf 相似性的方法，用于匹配短文本片段，并得出使用两种方法的混合方法可以更好地模拟非常短的文本片段中的语义内容。

Abstract

Levering data on social media, such as Twitter and Facebook, requires information retrieval algorithms to become able to relate very short text fragments to each other. Traditional text similarity methods such as

social media information retrieval algorithms word embeddings tf-idf similarity short text fragments

发现论文，激发创造

基于加权词向量聚合的极短文本表示学习

该研究构建了一种基于语义词嵌入和频率信息的方法，用于捕捉短文本间的语义相似性并设计了基于权重模型和一种基于中位数损失函数的学习过程，实现得到低维度的文本表示，实验证明该方法在维基百科和 Twitter 数据上表现优异且具有较好的泛化性能。

Jul, 2016

无监督句子表示作为词语信息系列：重访 TF-IDF

本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法，通过 TF-IDF 变换提供的 Shannon 词熵拟合词向量的权重，选择不同的超参得出短期训练、在线推理的句子表示，经过与 STS 系统的对比表明，该方法在语义文本相似度模型中的表现已达到最优。

Oct, 2017

弥合差距：有效映射 PubMed 查询与文档的语义相似度度量

提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法，利用神经词嵌入在检索无直接匹配的情况下发现相关词，并将其与 BM25 相结合，结果在 TREC Genomics 数据上平均精度平均提高 12％，在来自 PubMed 搜索日志的真实数据集上，结合学习排序的方法，正确率提高了 25％，表明该方法与 BM25 的结合可以产生更出色的性能。

Aug, 2016

基于多模型精细非线性融合的语义相似度计算模型

该论文介绍了一种基于多模型非线性融合的新模型，通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度，输入加权向量到全连接神经网络，从而降低特征提取的细粒度，全局把握句子特征。实验结果表明，句子相似度计算方法的匹配率为 84%，模型的 F1 值为 75%。

Feb, 2022

将相关文档纳入 word2vec 中

本文针对词嵌入模型在信息检索任务中存在的问题及其局限性，提出了一种基于 word2vec Skip-Gram 模型的神经网络模型，通过显式向量表示的方式，增加了模型的可解释性和准确性，实现了查询词汇的局部信息融合，提高了指定任务状态下的表现表现。

Jul, 2017

利用 Twitter 作为大语料库的来源，用于语义句子嵌入中的弱相似对

本文提出了以 Twitter 数据集为基础的无监督 Transformer 模型，通过解析 Twitter 回复和引用语句来构建海量的非正式文本句子的成对数据集，从而训练生成的语义句子向量，不仅在经典语义文本相似度任务中表现出色，而且在非精确参数化相似句子任务上表现突出。

Oct, 2021

将文档和查询表示为嵌入词向量集以进行信息检索

提供一种使用词向量嵌入表示整个文档的有效方法，通过将文档和查询表示为单词向量集，使用单词集中每个单词对之间的相似性来计算标准相似性度量，提高 TREC 自适应数据集中的平均精确度。

Jun, 2016

基于计数模型的词向量表示恢复

该研究是关于使用基于计数的模型来提取文本的语义表征，使用 Hellinger 距离用于处理大型语料库中的单词共现统计数据，并获得了很好的性能表现。

Dec, 2014

学生论文中细粒度的主题相关性评估的句子相似度测量

本文研究学习者文章中句子级提示相关性评估的任务，在两个学习者写作数据集上评估使用单词重叠、神经嵌入和神经合成模型的各种系统。我们提出了一种新的句子级相似度计算方法，该方法学习调整针对特定任务的预训练单词嵌入的权重，相较于其他相关基线模型，实现了显著更高的准确性。

Jun, 2016

使用单词嵌入进行跨语言抄袭检测

本文提出使用分布式单词表示（word embeddings）来进行跨语言文本相似度检测，并通过组合不同的方法来验证它们的补充性，最终在非常具有挑战性的语料库上，在块级别下实现了英法相似度检测的总体 F1 得分 89.15％（在句级别下为 88.5％）。

Feb, 2017