以词和句相似性重新思考评估

ACLMar, 2022

Just Rank: Rethinking Evaluation with Word and Sentence Similarities

Bin Wang, C.-C. Jay Kuo, Haizhou Li

TL;DR本文提出了 EvalRank 作为一种新的内部评估方法，它在 60 多个模型和流行数据集上进行了深入的实验，并释放了实用的评估工具包用于未来的基准测试。

Abstract

Word and sentence embeddings are useful feature representations in natural language processing. However, intrinsic evaluation for embeddings lags far behind, and there has been no significant update since the pas

word embeddings sentence embeddings intrinsic evaluation semantic similarity evalrank

发现论文，激发创造

使用词相似性任务评估词嵌入存在的问题

使用词相似度任务作为词向量内在评估的代理，但没有标准化的词向量外部评估方法。本文探讨了使用词相似度数据集进行词向量评估时存在的问题，并总结已有的解决方案，最后指出这种方法不具可持续性，需要进一步研究词向量的评估方法。

May, 2016

基于排名的词向量相似度度量

本文研究了基于词嵌入的语义相似度计算方法，提出了一种基于排名的度量方法，在相似度测量和异常值检测方面表现良好，表明基于排名的度量方法可以提高聚类质量。

May, 2018

WordRank: 通过强韧排序学习词向量

本文提出了一种基于排名问题的新框架 WordRank，即通过坚韧的排名损失函数有效地估计单词表示，并在单词类比和相似性基准测试中与现有技术进行了比较，结果表明我们的算法在大型语料库上与现有技术竞争力强，而在训练集有限（即稀疏和嘈杂）的情况下，其性能显著优于现有技术。

Jun, 2015

词向量评估方法概述

本论文总结了词嵌入表示领域的广泛研究，概括了 16 种内在方法和 12 种外在方法，提出了一种方法分类并讨论了一些关键挑战。

Jan, 2018

学生论文中细粒度的主题相关性评估的句子相似度测量

本文研究学习者文章中句子级提示相关性评估的任务，在两个学习者写作数据集上评估使用单词重叠、神经嵌入和神经合成模型的各种系统。我们提出了一种新的句子级相似度计算方法，该方法学习调整针对特定任务的预训练单词嵌入的权重，相较于其他相关基线模型，实现了显著更高的准确性。

Jun, 2016

利用词嵌入进行 ROUGE 更好的摘要评估

本文探讨了借助 Word Embedding 计算摘要中的语义相似度来代替传统的基于词汇重叠度的 ROUGE 自动评估方法存在的偏差，实验结果显示该方法比传统方法更能准确地与人工评估结果相符。

Aug, 2015

评估语义变化的句子嵌入模型的比较研究

分析语义变化的模式在长篇实际文本（如书籍或记录）中是有趣的，从文体、认知和语言的角度来看。这项研究也对应用领域，如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同，我们的方法提供了对方法在现实情境的评估。我们发现，大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式，但也存在有趣的差异。

Aug, 2023

如何评估词嵌入？数据效率和简单监督任务的重要性

提出了一种基于数据效率和简单监督任务的评估方法，系统评估了一些词嵌入模型，并得出了新的性能特征见解，例如词相似性和类比常常用非线性编码，质疑了基于余弦相似度的无监督评估方法。

Feb, 2017

句子嵌入在下游和语言探究任务中的评估

本文对最新的句子嵌入方法进行了全面评估，通过使用多样的下游和语言特征探测任务，表明与在蕴涵数据集上训练的句子编码器相比，使用具有深度上下文相关性单词嵌入的词袋模型可以在许多任务中产生更好的结果，但我们远未达成一个可以在多个下游任务中持续表现的通用编码器。

Jun, 2018

增强排名的无监督句子表示学习

本文提出了一种基于相邻句子的无监督句子编码器 RankEncoder，利用相邻句子约束进行训练，在语义文本相似度性能、相似句子对的有效性和普适性等方面都较好地表现，达到了 80.07% 的斯皮尔曼等级相关性，相较于最先进技术性能有 1.1% 的绝对提升，并且在相似句子对方面提升更为显着，为 1.73%，同时证明了 RankEncoder 可以普遍适用于现有的无监督句子编码器。

Sep, 2022