语义答案相似度度量评估
本论文提出了一种基于交叉编码器的语义答案相似度估计评估度量标准(SAS),与七种现有度量标准进行比较,并通过人类判断的语义相似性评估数据集检验其性能。结果表明,基于最近的 Transformer 模型的语义相似度度量标准与传统的词汇相似度度量标准在新创建的数据集和相关工作的一个数据集上的人类评价更加相关。通过语义相似性度量标准可以提高问答模型评测的准确性。
Aug, 2021
本文研究基于问答的摘要评估方法,要求自动决定 QA 模型的预测是否正确,即答案验证。通过比较词汇重叠和两种更复杂的文本比较方法,BERTScore 和 LERC,我们发现在某些场景下 LERC 的效果优于其他方法,但在其他场景下表现与词汇重叠相当。然而,我们的实验表明,改进的验证性能不一定能够转化为整体 QA-based 评估质量,在某些情况下,使用较差的验证方法(或根本不使用)具有与使用最佳验证方法相当的性能,这是由于数据集的特性所致。
Apr, 2022
我们介绍了一个语义实体相似度数据集 WES,其中包含 11M 个例子,专注于领域,旨在评估 QA:这些例子是实体和短语,分组为语义聚类以模拟多个 ground-truth 标签,用于预测人类正确性判断的基本交叉编码器度量优于四个经典度量。
Feb, 2022
使用多个参考答案的评估指标 SQuArE(基于句子级问题回答评估)对句子形式的 QA 系统进行评估,显示其优于以往的基准线,并获得与人工评注最高的相关性。
Sep, 2023
本文分析了超过十余种测量两个短文本的语义相似性的方法,并使用一个新的标记为语义相似性的 14,000 句子数据集证明文献中使用的这些度量标准都不能够足够接近人的判断。虽然有一些最近提出的度量标准提供了具有可比性的结果,但 Word Mover Distance 被证明是目前测量改写文本的语义相似性的最合理的解决方案。
Apr, 2020
使用句子转换和余弦相似度来衡量语义上的相似度,本研究将 “文本相似性” 引入机器翻译(MT)质量估计(QE)作为一种新的度量标准。通过分析 MLQE-PE 数据集,我们发现文本相似性与人工评分的相关性比传统指标(hter、模型评估等)更强。应用 GAMMs 作为统计工具,我们证明了文本相似度在多种语言对中一致优于其他指标来预测人工评分。我们还发现 “hter” 在质量估计中无法准确预测人工评分。我们的发现突出了文本相似性作为一个强大的质量估计度量标准,建议将其与其他指标结合到 QE 框架和 MT 系统训练中,以提高准确性和可用性。
Jun, 2024
本文探讨了自然语言生成的有效评估指标,以及通过使用轻量级版本的 Transformer 和线性、二次逼近算法来实现评估指标的高效计算,研究发现,TinyBERT 在语义相似性评估指标方面表现最佳,并且在平均推理时间上比原算法要快 5 倍,但 WMD 近似计算并没有带来效率提升,反而在部分机器翻译数据集上使得质量下降。
Sep, 2022
本研究提出一种针对任何特定领域搜索引擎的框架来计算给定输入查询和一组预定义问题之间的相似度,使用 Siamese 网络和 LSTM 模型训练分类器来生成未归一化和归一化的相似度分数,并结合两种词向量和自定义模糊匹配分数等三种其他相似度得分计算的元分类器,在 Quora 问题对(QQP)数据集以及特定于金融领域的数据集上进行性能测试。
Jan, 2021
这篇研究探讨了高性能预训练语言模型的表现,并提出了一些可解释的评估指标用于理解检索实例的概念质量,并对具有明显查询语义的对抗性干预进行了测试,揭示了不透明指标中的漏洞并显示了学习语言表示中的模式。
Sep, 2022
本文提出了一种基于双向蕴含的机器翻译评估新指标,利用深度学习实现候选和参考翻译之间的语义相似度评分,应用于 WMT'14 和 WMT'17 数据集,与传统指标相比在系统级别上具有更好的与人工注释评分的相关性。
Nov, 2019