文档级神经机器翻译的话语衔接评估
本文提出了一种基于强化学习目标的训练方法,明确优化词汇凝聚力和连贯性两个学术界公认的话语质量指标,实现了在不牺牲翻译忠实度的前提下,比其他竞争性方法更有效地提高了多语种、多领域文档翻译的凝聚和连贯性。在中英语言对中,词汇凝聚力和连贯性分别提高了 2.46 和 1.17 个百分点,BLEU 分数和 F_BERT 分数分别提高了 0.63 和 0.47 个百分点。
Oct, 2020
本论文提出了一个带有丰富语篇注释的新数据集,并探讨了源语言和目标语言的语篇结构相似性和差异性以及其对机器翻译的挑战和机会,该资源可公开使用以促进未来在文档级机器翻译和其他语言翻译任务的研究。
May, 2023
本研究提出一种层次神经网络模型,通过多任务学习,同时预测文档层次的信息连贯得分和词级别的语法角色,利用两个任务之间的归纳转移,提高模型泛化能力,并在不同任务中达到了新的最优表现。
Jul, 2019
提出了一种基于缓存的方法来对神经机器翻译中的一致性进行建模,并采用一个新的层次来计算缓存中的目标词的分数,实验结果表明,所提出的基于缓存的神经模型相对于几种最先进的 SMT 和 NMT 基线的翻译性能都有了显著的提高。
Nov, 2017
本研究提出了一种基于 LLM 的方法,受到人类主题评估的启发,实现了语境化主题连贯性(CTC)度量,其在自动化主题连贯性方法方面表现出色,可应用于短文本,并不容易受到高分却无意义的主题干扰。
May, 2023
本文提出了一种新型的自动评估方法 BlonDe,通过将话语连贯性考虑在内来扩大自动翻译评估的范围,从句子级别提高到文档级别,该方法能够更好地区分文档级别的翻译质量改进和句子级别的改进,并且具有更好的判别性、可解释性和敏感性。在大规模的人类研究中,BlonDe 也成功地取得了比前期评估指标更高的 Pearson r 相关度。
Mar, 2021
本文提出了一种新的神经语言模型,它具备两个神经鉴别器,可以在句子层面(内聚性)和段落层面(连贯性)提供反馈信号,并且使用了一种称为负关键序列训练的简单而有效的策略梯度方法进行训练。结果表明,相对于基线(基于双向 MLE 训练的复发关注神经语言模型),我们的方法有效改善了模型表现。
Nov, 2018
本文通过人类实验和模型构建等研究方法,提出了一种适用于大规模句子级平行数据的上下文感知 NMT 模型,通过解决上下文因素引发的翻译不一致问题,取得了 BLEU 上的显著性能提升。
May, 2019