本研究通过提出一种交互式文本生成设置,在其中用户通过向系统发出编辑现有文本的命令与系统进行交互,来解决神经文本生成中一次生成的局限性,并介绍了一种新的文本编辑任务。通过使用 Wikipedia 中的单句编辑构成了一个名为 WikiDocEdits 的数据集,使用基于 transformer 的模型在其中进行训练以提高其自动产生的成果和用户评估结果。在此基础上,本研究分别从经验和定性分析方面展示了该模型的性能表现。
Oct, 2020
提出了一种新型的混合方法,它结合了基于语言学的分裂和删除规则以及神经语言转换模型来进行不同的简化操作,并通过引入新的数据增强方法来提高模型的语言转换能力。通过自动和手动评估,证明该模型在对比现有系统时,产生了更多的语言转换,并且可以控制所应用的每个简化操作的程度。
本文介绍了文本编辑模型和 seq2seq 模型,分析了它们的优缺点,探讨了生产化和应对文本生成中的幻觉和偏见等挑战。
Jun, 2022
本研究提出了一种基于迭代文本编辑的数据到文本生成新方法,使用两个先前训练模型 LaserTagger 和 GPT-2,并通过简单的启发式筛选和已训练语言模型对输出进行筛选和重新排序。
Nov, 2020
提出并实现了一种基于抽取 - 编辑方法的无监督神经机器翻译,与以往仅使用错误积累法的基准性方法相比,在多个语言对和领域(包括低资源语言)的实验中表现更加优异。
Apr, 2019
神经机器翻译需进行后编辑以提高翻译质量,后编辑可作为新的训练数据进行在线学习,本文提出新的优化算法并实验比较在线学习算法,结果表明翻译质量和工作量得到了显著提高。
Jun, 2017
本文介绍了一种基于编辑的转换器,其通过编辑假设使序列生成更加灵活。 实验证明,它在处理序列时,比 Levenshtein Transformer 更有效,并且在标准的机器翻译任务中可以实现与 Levenshtein Transformer 相媲美的翻译质量和更快的解码速度。
这篇文章研究了如何自动提高机器翻译的文章质量,提出了可移植的 postediting 模块来替代改善某个系统内部的方法,并且通过学习算法构建了一个完整的文章选择自动 postediting 模块,并与人类表现进行了比较。
Jul, 1994
该研究介绍了一项机器翻译任务,其输出面向不同水平的目标语言熟练度的受众。他们收集了高质量的新闻文章数据集,提出了一种跨语言文章段落对齐方法,训练出多任务序列到序列模型,实现将西班牙语翻译成英语并针对英语简化阅读难度,结果显示这些多任务模型优于传统的翻译和简化文本管线式方法。
Nov, 2019
这篇论文介绍了第一个基于神经程序解释器方法实现显式编辑操作(添加、删除和保留)的句子简化模型。与旧有的序列到序列机器翻译方法不同,该方法直接训练预测输入句子的目标部分的显式编辑操作,表现大幅度优于先前的最先进的神经句子简化模型,在人类评价方面也得到了肯定。
Jun, 2019