什么是好的改写：自动评估是否有效？

Jul, 2023

什么是好的改写：自动评估是否有效？

What Makes a Good Paraphrase: Do Automated Evaluations Work?

Anna Moskvina, Bhushan Kotnis, Chris Catacata, Michael Janz, Nasrin Saef

TL;DR汤姆的研究使用德国数据集对改写的质量进行了自动和专家语言学评估，以回答改写应该有多大的差异才能被视为可接受，以及是否可以仅使用自动化指标评估改写质量的问题。

Abstract

paraphrasing is the task of expressing an essential idea or meaning in different words. But how different should the words be in order to

paraphrasing essential idea different words automated metrics linguistic evaluation

发现论文，激发创造

理解重述度量

提出了一种新的度量方法 $ROUGE_P$ 来评估再表述的质量，并提供了证据表明当前自然语言生成度量标准不足以衡量好的再表述的期望属性。

May, 2022

任务导向的释义分析

通过文献综述和提出分类法，本研究对 25 个已知的改写（子）任务进行整理和组织。使用分类器识别给定改写实例适用的任务，发现已知改写语料库中特定任务实例的分布差异很大。这意味着在没有明确定义相应改写条件的情况下使用这些语料库会导致不可比较和误导性的结果。

Mar, 2024

学习改写以进行问答

利用释义学习问题表达的多样性来提高询问回答系统在 Freebase 和句子选择上的准确性。通过训练端到端来直接学习最有可能产生正确答案的语言表达，得到了有竞争力的结果。

Aug, 2017

人工改写的参考文献改善神经机器翻译

本文研究采用人工生成的同义词组进行翻译评估，结果表明使用同义词组可以更好地反映人类判断，同时使用同义词组进行系统开发可以产生显著的提高。

Oct, 2020

通过自动爬取和对齐的句子对进行神经重述

本文介绍了一种基于语言约束的相似性搜索方法，用于自动产生大规模对齐语料库，以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估，并使用基于指针的深度神经网络架构实验。

Feb, 2024

多语言神经机器翻译中使用外语重述

本文介绍如何使用包含一致结构的训练数据作为语料库级别的释义，并将释义视为外语词汇进行 Neural Machine Translation 的训练。本方法表现出比过去的单词或短语级别的方法更好的效果，并且在使用多种语言的平行释义进行训练时表现最佳。该方法提高了翻译的 BLEU 分数，增加了词汇选择的熵和多样性。

Aug, 2018

iParaphrasing：通过图像提取基于视觉的复述句

本文提出了一种新的任务 iParaphrasing，通过提取基于视觉的复述词（VGPs）来改善语言和图像多模态任务的性能，使用各种现有方法和基于神经网络的图像注意力方法建模 VGPs 之间的相似性并报告了结果。

Jun, 2018

关于释义生成的评估度量

本文重新审视了用于复述评估的自动评估度量，并得出两个违背常规智慧的发现：(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。基于实验和分析，我们提出了 ParaScore，这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点，并明确地建模词汇差异。实验结果证明，ParaScore 显着优于现有的指标。

Feb, 2022

无监督的语句改写

该论文提出了一种从非标记的单语语料库中学习的重述模型，通过在重述识别，生成和训练增强方面与基于机器翻译的方法进行比较，发现单语重述在所有场景中均优于无监督翻译。

May, 2019

提高 BLEU 参考覆盖率的多样化自动释义研究

通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性，探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性，实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现，但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现，一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。

Apr, 2020