使用 BERT 评估文本生成

ICLRApr, 2019

BERTScore: Evaluating Text Generation with BERT

PDF

Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi

TL;DRBERTScore 是一种针对文本生成的自动评估指标，利用上下文嵌入计算 token 的相似性，能够更好地与人类判断相关，并提供比现有度量更强的模型选择性能。

Abstract

We propose bertscore, an automatic evaluation metric for text generation. Analogously to common metrics, →

bertscore automatic evaluation metric text generation machine translation image captioning

发现论文，激发创造

BERTTune: 使用 BERTScore 微调神经机器翻译

本文提出使用基于 BERTScore 评估指标的新型训练目标对神经机器翻译模型进行微调，以克服在训练过程中出现的过拟合偏见问题；作者提出三种生成软预测的方法，可使网络保持端到端的完全可微性，实验表明在四种不同的语言对上，微调目前具有一个强基线模型的 BLEU 分数提高了 0.58pp（3.28%），BERTScore 得分提高了 0.76pp（0.98%）。

Jun, 2021

BARTScore：将生成文本作为文本生成进行评估

本研究利用预训练的序列到序列模型建立生成文本评估系统，并提出了一种与可靠的度量标准 BARTScore，可灵活应用于不同角度的文本评估，包括信息性，流畅性和事实性等领域，通过在 16 个数据集和 7 个不同角度的测试中超越其他评测度量标准。

Jun, 2021

一种计算 BERTScore 的新方法，用于自动评估翻译质量

该研究旨在利用 BERTScore 度量英俄翻译中句子级别的翻译质量，并通过利用单语 BERT 模型和基于锚定标记的正交变换对齐单语言嵌入来改进模型性能，结果表明改进的方法可以提高模型预测与人类判断的相关性。

Mar, 2022

KG-BERTScore：将知识图谱融入 BERTScore 用于无参考机器翻译评价

本文研究了机器翻译自动评估方法，并将多语言知识图谱融入 BERTScore 之中，提出了一种名为 KG-BERTScore 的评估指标，通过线性组合 BERTScore 和双语命名实体匹配的结果来评估无需参考译文的机器翻译质量，并在实验中证明 KG-BERTScore 相比当前无参考机器翻译评价方法更接近于人工评估结果。同时，本文还探究了 KG-BERTScore 所用到的预训练多语言模型和线性组合参数。

Jan, 2023

MetricBERT：通过自监督三元组训练学习文本表征

本文介绍了一种基于 BERT 的模型 MetricBERT，该模型通过学习嵌入文本并同时遵循传统的掩码语言任务，以在定义明确的相似度度量下进行。我们主要关注于推荐中的学习相似性的下游任务，表明 MetricBERT 在超越其他最先进的替代方法并取得显著优势方面出色地表现。此外，我们还发布了一个由领域专家制作的视频游戏描述数据集以及测试集的相似性注释。

Aug, 2022

通过 Wasserstein 重心镜头自动文本评估

提出了基于 Wasserstein 距离和 barycenter 的新框架和指标 BaryScore 来衡量基于深度情境化嵌入（例如 BERT、Roberta、ELMo）的文本生成质量，通过建模深度情境化嵌入的层输出为概率分布或向量嵌入等多种形式，这一框架提供了一种自然的聚合不同输出的方法，并对度量提供了理论依据，针对机器翻译、数据到文本生成和图像字幕等领域进行了数值测评，结果表明 BaryScore 指标在特别是文本摘要方面优于其他基于 BERT 的指标并且表现更为一致。

Aug, 2021

层次还是表示空间：什么使 BERT 基于评估度量具有鲁棒性？

本文论述了嵌入式度量用于关于文本生成的度量技术，在面对新的和嘈杂的领域时，它们的贡献和一些挑战，考虑到输入的噪声量和未知的记号。这篇文章重点研究 BERTScore，证明了使用预训练模型第一层的字符级别嵌入比标记级嵌入更加鲁棒。

Sep, 2022

BLEURT: 学习文本生成的鲁棒度量

提出了一种基于 BERT 的学习评估指标 BLEURT，可以通过数千个训练实例建模人类判断，并使用数百万个合成实例的新型预训练方案来帮助模型泛化，提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。

Apr, 2020

MoverScore: 文本生成的上下文嵌入和地球移动距离评估

本文研究评估文本生成系统的评价指标，提出了基于语义而非形式的指标 MoverScore，并通过多项任务的验证表明采用上下文表示和距离测度相结合的方法可以取得最佳表现，该指标具有较强的泛化能力，并已提供 Web 服务方便使用。

Sep, 2019

能否更简单地做到这一点？自然语言生成的简单、高效、高质量评估指标

本文探讨了自然语言生成的有效评估指标，以及通过使用轻量级版本的 Transformer 和线性、二次逼近算法来实现评估指标的高效计算，研究发现，TinyBERT 在语义相似性评估指标方面表现最佳，并且在平均推理时间上比原算法要快 5 倍，但 WMD 近似计算并没有带来效率提升，反而在部分机器翻译数据集上使得质量下降。

Sep, 2022