神经机器翻译中的文本复杂度控制

EMNLPNov, 2019

神经机器翻译中的文本复杂度控制

Controlling Text Complexity in Neural Machine Translation

Sweta Agrawal, Marine Carpuat

TL;DR该研究介绍了一项机器翻译任务，其输出面向不同水平的目标语言熟练度的受众。他们收集了高质量的新闻文章数据集，提出了一种跨语言文章段落对齐方法，训练出多任务序列到序列模型，实现将西班牙语翻译成英语并针对英语简化阅读难度，结果显示这些多任务模型优于传统的翻译和简化文本管线式方法。

Abstract

This work introduces a machine translation task where the output is aimed at audiences of different levels of target language proficiency. We collect a high quality →

machine translation target language proficiency dataset multi-task models sequence-to-sequence

发现论文，激发创造

简化翻译的神经机器翻译

这篇论文介绍了使用文本简化技术和神经机器翻译模型来提高深度学习翻译模型的学习能力，并通过实验验证了这种方法的有效性。

Dec, 2016

可访问的多语言文本分析的机器翻译

本文研究通过机器翻译将其他语言翻译成英文进行多语言文本分析，结果表明这种方法在情感分析，主题分析和词嵌入等分析方法上，与使用源语言进行分析的结果相当，机器翻译可以帮助计算机学者做出关于人类沟通的更具包容性和普适性的结论。

Jan, 2023

基于深度多任务学习的双语稀缺情境神经机器翻译

本文提出了一种基于多任务学习方法，利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题，并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中，实现了在英法、英波斯和英越三种翻译任务上的有效性验证。

May, 2018

利用机器翻译增强多语言分类

利用机器翻译来调整多语言模型以进行分类任务在多种语言之间产生一定的效果，并且通过一种新颖的技术可以改善模型对翻译数据的负面影响。

May, 2024

使用合成监督控制神经机器翻译的正式性

本文介绍了一种使用多任务学习的新训练方法，通过自动生成合成的训练三元组，解决实际语言环境下缺乏适当数据的问题，从而实现端到端训练。经过全面的自动化和人工评估，我们的模型在保持源意义的同时，更好地匹配所需的正式程度水平，远优于现有模型。

Nov, 2019

神经机器翻译输出长度控制

本文首次解决了神经机器翻译中输出长度的控制问题，并调查了两种解决方法，分别是将输出与目标输入长度比例类相关联和在 Transformer 位置嵌入中加入长度信息。实验结果表明，这两种方法都可以使网络生成更短的翻译，并获得解释性的语言技能。

Oct, 2019

利用神经机器翻译构建多语言代码搜索数据集

本研究使用神经机器翻译模型，创建了一个包括四种自然语言和四种编程语言的多语言代码搜索数据集，并使用 Transformer 模型预训练和微调，然后在多个代码搜索测试集上进行评估。结果显示，预训练模型在自然语言和编程语言数据上表现最佳。通过应用反向翻译数据过滤，研究表明翻译质量在一定程度上影响模型的性能，但数据规模更为重要。

Jun, 2023

基于字符级神经网络的 SUMMA 项目跨语言媒体监测翻译

通过使用序列到序列的神经翻译模型的低维语义表示能力，该论文尝试解决自动多语种新闻监测中出现的两个问题：将电视和广播节目 ASR 转录分割成单个故事，对来自各种来源和语言的单个故事进行故事线聚类。为了实现多语种神经翻译的联合多任务学习，论文使用滑动窗口机制替换注意力机制，并在字符级别而非单词级别上操作序列到序列的神经翻译模型处理分割和聚类问题。通过检查作为神经翻译过程副产品产生的低维向量，解决分割故事和故事线聚类问题的方法值得进一步研究。

Apr, 2016

词汇复杂性控制的句子生成

我们提出了一个新颖的任务，即控制词汇复杂度的句子生成，该任务旨在使用具有所需复杂度水平的关键词生成句子。我们提出了一种基于复杂度嵌入的简单而有效的方法，用于训练模型和微调预训练模型，并在英文和中文数据集上进行了广泛的实验。结果表明，相对于基线方法，我们的方法更好地控制了词汇复杂度并生成了更高质量的句子。

Nov, 2022

一项以用户为中心的西班牙文正文简化评价

我们通过两个以复杂句和复杂词为重点的语料库，对西班牙语文本简化（TS）在生产系统中进行评估。我们将最流行的西班牙语特定可读性评分与神经网络进行比较，并表明后者在预测用户对 TS 的偏好方面始终更好。作为分析的一部分，我们发现多语言模型在相同任务上表现不及相应的仅限西班牙语模型，然而所有模型都过于频繁地关注无关的统计特征，如句子长度。我们通过在评估中发布我们的语料库，希望推动西班牙语自然语言处理的最新技术发展。

Aug, 2023