神经机器翻译中的文本复杂度控制
本文研究通过机器翻译将其他语言翻译成英文进行多语言文本分析,结果表明这种方法在情感分析,主题分析和词嵌入等分析方法上,与使用源语言进行分析的结果相当,机器翻译可以帮助计算机学者做出关于人类沟通的更具包容性和普适性的结论。
Jan, 2023
本文提出了一种基于多任务学习方法,利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题,并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中,实现了在英法、英波斯和英越三种翻译任务上的有效性验证。
May, 2018
本文介绍了一种使用多任务学习的新训练方法,通过自动生成合成的训练三元组,解决实际语言环境下缺乏适当数据的问题,从而实现端到端训练。经过全面的自动化和人工评估,我们的模型在保持源意义的同时,更好地匹配所需的正式程度水平,远优于现有模型。
Nov, 2019
本文首次解决了神经机器翻译中输出长度的控制问题,并调查了两种解决方法,分别是将输出与目标输入长度比例类相关联和在 Transformer 位置嵌入中加入长度信息。实验结果表明,这两种方法都可以使网络生成更短的翻译,并获得解释性的语言技能。
Oct, 2019
本研究使用神经机器翻译模型,创建了一个包括四种自然语言和四种编程语言的多语言代码搜索数据集,并使用 Transformer 模型预训练和微调,然后在多个代码搜索测试集上进行评估。结果显示,预训练模型在自然语言和编程语言数据上表现最佳。通过应用反向翻译数据过滤,研究表明翻译质量在一定程度上影响模型的性能,但数据规模更为重要。
Jun, 2023
通过使用序列到序列的神经翻译模型的低维语义表示能力,该论文尝试解决自动多语种新闻监测中出现的两个问题:将电视和广播节目 ASR 转录分割成单个故事,对来自各种来源和语言的单个故事进行故事线聚类。为了实现多语种神经翻译的联合多任务学习,论文使用滑动窗口机制替换注意力机制,并在字符级别而非单词级别上操作序列到序列的神经翻译模型处理分割和聚类问题。通过检查作为神经翻译过程副产品产生的低维向量,解决分割故事和故事线聚类问题的方法值得进一步研究。
Apr, 2016
我们提出了一个新颖的任务,即控制词汇复杂度的句子生成,该任务旨在使用具有所需复杂度水平的关键词生成句子。我们提出了一种基于复杂度嵌入的简单而有效的方法,用于训练模型和微调预训练模型,并在英文和中文数据集上进行了广泛的实验。结果表明,相对于基线方法,我们的方法更好地控制了词汇复杂度并生成了更高质量的句子。
Nov, 2022
我们通过两个以复杂句和复杂词为重点的语料库,对西班牙语文本简化(TS)在生产系统中进行评估。我们将最流行的西班牙语特定可读性评分与神经网络进行比较,并表明后者在预测用户对 TS 的偏好方面始终更好。作为分析的一部分,我们发现多语言模型在相同任务上表现不及相应的仅限西班牙语模型,然而所有模型都过于频繁地关注无关的统计特征,如句子长度。我们通过在评估中发布我们的语料库,希望推动西班牙语自然语言处理的最新技术发展。
Aug, 2023