使用 BERT 评估文本生成
本文提出使用基于 BERTScore 评估指标的新型训练目标对神经机器翻译模型进行微调,以克服在训练过程中出现的过拟合偏见问题;作者提出三种生成软预测的方法,可使网络保持端到端的完全可微性,实验表明在四种不同的语言对上,微调目前具有一个强基线模型的 BLEU 分数提高了 0.58pp(3.28%),BERTScore 得分提高了 0.76pp(0.98%)。
Jun, 2021
本研究利用预训练的序列到序列模型建立生成文本评估系统,并提出了一种与可靠的度量标准 BARTScore,可灵活应用于不同角度的文本评估,包括信息性,流畅性和事实性等领域,通过在 16 个数据集和 7 个不同角度的测试中超越其他评测度量标准。
Jun, 2021
该研究旨在利用 BERTScore 度量英俄翻译中句子级别的翻译质量,并通过利用单语 BERT 模型和基于锚定标记的正交变换对齐单语言嵌入来改进模型性能,结果表明改进的方法可以提高模型预测与人类判断的相关性。
Mar, 2022
本文研究了机器翻译自动评估方法,并将多语言知识图谱融入 BERTScore 之中,提出了一种名为 KG-BERTScore 的评估指标,通过线性组合 BERTScore 和双语命名实体匹配的结果来评估无需参考译文的机器翻译质量,并在实验中证明 KG-BERTScore 相比当前无参考机器翻译评价方法更接近于人工评估结果。同时,本文还探究了 KG-BERTScore 所用到的预训练多语言模型和线性组合参数。
Jan, 2023
本文介绍了一种基于 BERT 的模型 MetricBERT,该模型通过学习嵌入文本并同时遵循传统的掩码语言任务,以在定义明确的相似度度量下进行。我们主要关注于推荐中的学习相似性的下游任务,表明 MetricBERT 在超越其他最先进的替代方法并取得显著优势方面出色地表现。此外,我们还发布了一个由领域专家制作的视频游戏描述数据集以及测试集的相似性注释。
Aug, 2022
提出了基于 Wasserstein 距离和 barycenter 的新框架和指标 BaryScore 来衡量基于深度情境化嵌入(例如 BERT、Roberta、ELMo)的文本生成质量,通过建模深度情境化嵌入的层输出为概率分布或向量嵌入等多种形式,这一框架提供了一种自然的聚合不同输出的方法,并对度量提供了理论依据,针对机器翻译、数据到文本生成和图像字幕等领域进行了数值测评,结果表明 BaryScore 指标在特别是文本摘要方面优于其他基于 BERT 的指标并且表现更为一致。
Aug, 2021
本文论述了嵌入式度量用于关于文本生成的度量技术,在面对新的和嘈杂的领域时,它们的贡献和一些挑战,考虑到输入的噪声量和未知的记号。这篇文章重点研究 BERTScore,证明了使用预训练模型第一层的 字符级别嵌入 比标记级嵌入更加鲁棒。
Sep, 2022
提出了一种基于 BERT 的学习评估指标 BLEURT,可以通过数千个训练实例建模人类判断,并使用数百万个合成实例的新型预训练方案来帮助模型泛化,提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。
Apr, 2020
本文研究评估文本生成系统的评价指标,提出了基于语义而非形式的指标 MoverScore,并通过多项任务的验证表明采用上下文表示和距离测度相结合的方法可以取得最佳表现,该指标具有较强的泛化能力,并已提供 Web 服务方便使用。
Sep, 2019
本文探讨了自然语言生成的有效评估指标,以及通过使用轻量级版本的 Transformer 和线性、二次逼近算法来实现评估指标的高效计算,研究发现,TinyBERT 在语义相似性评估指标方面表现最佳,并且在平均推理时间上比原算法要快 5 倍,但 WMD 近似计算并没有带来效率提升,反而在部分机器翻译数据集上使得质量下降。
Sep, 2022