该研究构建了一种基于语义词嵌入和频率信息的方法,用于捕捉短文本间的语义相似性并设计了基于权重模型和一种基于中位数损失函数的学习过程,实现得到低维度的文本表示,实验证明该方法在维基百科和 Twitter 数据上表现优异且具有较好的泛化性能。
Jul, 2016
本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法,通过 TF-IDF 变换提供的 Shannon 词熵拟合词向量的权重,选择不同的超参得出短期训练、在线推理的句子表示,经过与 STS 系统的对比表明,该方法在语义文本相似度模型中的表现已达到最优。
Oct, 2017
提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法,利用神经词嵌入在检索无直接匹配的情况下发现相关词,并将其与 BM25 相结合,结果在 TREC Genomics 数据上平均精度平均提高 12%,在来自 PubMed 搜索日志的真实数据集上,结合学习排序的方法,正确率提高了 25%,表明该方法与 BM25 的结合可以产生更出色的性能。
Aug, 2016
该论文介绍了一种基于多模型非线性融合的新模型,通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度,输入加权向量到全连接神经网络,从而降低特征提取的细粒度,全局把握句子特征。实验结果表明,句子相似度计算方法的匹配率为 84%,模型的 F1 值为 75%。
Feb, 2022
本文针对词嵌入模型在信息检索任务中存在的问题及其局限性,提出了一种基于 word2vec Skip-Gram 模型的神经网络模型,通过显式向量表示的方式,增加了模型的可解释性和准确性,实现了查询词汇的局部信息融合,提高了指定任务状态下的表现表现。
Jul, 2017
本文提出了以 Twitter 数据集为基础的无监督 Transformer 模型,通过解析 Twitter 回复和引用语句来构建海量的非正式文本句子的成对数据集,从而训练生成的语义句子向量,不仅在经典语义文本相似度任务中表现出色,而且在非精确参数化相似句子任务上表现突出。
Oct, 2021
提供一种使用词向量嵌入表示整个文档的有效方法,通过将文档和查询表示为单词向量集,使用单词集中每个单词对之间的相似性来计算标准相似性度量,提高 TREC 自适应数据集中的平均精确度。
Jun, 2016
该研究是关于使用基于计数的模型来提取文本的语义表征,使用 Hellinger 距离用于处理大型语料库中的单词共现统计数据,并获得了很好的性能表现。
Dec, 2014
本文研究学习者文章中句子级提示相关性评估的任务,在两个学习者写作数据集上评估使用单词重叠、神经嵌入和神经合成模型的各种系统。我们提出了一种新的句子级相似度计算方法,该方法学习调整针对特定任务的预训练单词嵌入的权重,相较于其他相关基线模型,实现了显著更高的准确性。
本文提出使用分布式单词表示(word embeddings)来进行跨语言文本相似度检测,并通过组合不同的方法来验证它们的补充性,最终在非常具有挑战性的语料库上,在块级别下实现了英法相似度检测的总体 F1 得分 89.15%(在句级别下为 88.5%)。
Feb, 2017