提出了一种新的度量方法 $ROUGE_P$ 来评估再表述的质量,并提供了证据表明当前自然语言生成度量标准不足以衡量好的再表述的期望属性。
May, 2022
通过文献综述和提出分类法,本研究对 25 个已知的改写(子)任务进行整理和组织。使用分类器识别给定改写实例适用的任务,发现已知改写语料库中特定任务实例的分布差异很大。这意味着在没有明确定义相应改写条件的情况下使用这些语料库会导致不可比较和误导性的结果。
Mar, 2024
利用释义学习问题表达的多样性来提高询问回答系统在 Freebase 和句子选择上的准确性。通过训练端到端来直接学习最有可能产生正确答案的语言表达,得到了有竞争力的结果。
Aug, 2017
本文研究采用人工生成的同义词组进行翻译评估,结果表明使用同义词组可以更好地反映人类判断,同时使用同义词组进行系统开发可以产生显著的提高。
Oct, 2020
本文介绍了一种基于语言约束的相似性搜索方法,用于自动产生大规模对齐语料库,以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估,并使用基于指针的深度神经网络架构实验。
Feb, 2024
本文介绍如何使用包含一致结构的训练数据作为语料库级别的释义,并将释义视为外语词汇进行 Neural Machine Translation 的训练。本方法表现出比过去的单词或短语级别的方法更好的效果,并且在使用多种语言的平行释义进行训练时表现最佳。该方法提高了翻译的 BLEU 分数,增加了词汇选择的熵和多样性。
Aug, 2018
本文提出了一种新的任务 iParaphrasing,通过提取基于视觉的复述词(VGPs)来改善语言和图像多模态任务的性能,使用各种现有方法和基于神经网络的图像注意力方法建模 VGPs 之间的相似性并报告了结果。
Jun, 2018
本文重新审视了用于复述评估的自动评估度量,并得出两个违背常规智慧的发现:(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。 基于实验和分析,我们提出了 ParaScore,这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点,并明确地建模词汇差异。实验结果证明,ParaScore 显着优于现有的指标。
Feb, 2022
该论文提出了一种从非标记的单语语料库中学习的重述模型,通过在重述识别,生成和训练增强方面与基于机器翻译的方法进行比较,发现单语重述在所有场景中均优于无监督翻译。
May, 2019
通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性,探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性,实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现,但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现,一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。
Apr, 2020