- 多语种文本风格转换:印度语言的数据集与模型
本文旨在通过保留核心内容的同时改变文本的语言风格,重点研究了情感转换这一重要的文本风格转换子任务,涵盖印度语言的广泛范围,包括印地语、马加伊语、马拉雅拉姆语、马拉地语、旁遮普语、奥迪亚语、泰卢固语和乌尔都语;本文介绍了每种语言的正负样式平行 - 中继解码:为机器翻译串联大型语言模型
通过使用 RD(Relay Decoding)方法,将两个不同的大型语言模型连接起来,并利用少量的平行数据进行训练,我们成功地在机器翻译任务中取得了优越的结果。在 Multi30k 和 WikiMatrix 数据集上进行的实验结果验证了我们 - 自我监督序列学习的符号编码
通过最小化重建损失以及监督损失,符号自编码器(ΣAE)利用大量非平行数据和有限的平行数据,通过离散瓶颈层将两个生成模型连接起来,从而在传递任务中显着提高性能,并为弱监督学习场景提供了有希望的解决方案。
- EMNLP无需平行数据的翻译去 “翻译式” 重叠
研究采用自监督学习与非监督学习相结合的方法,通过基于翻译的风格转换降低翻译文本中的翻译风格,消除了对平行验证数据的需求,有效地降低了翻译类文本的分类准确性,并在目标原始风格中保持了内容和流畅度。
- ACL无监督旋律 - 歌词生成
本研究提出一种层次化歌词生成框架,通过将已知旋律编码为解码约束并获得歌曲大纲和完整歌词的生成,实现未经过任何对齐的歌曲和歌词数据即可生成高质量歌词,并通过歌曲大纲实现内容控制。实验结果表明,本模型相对于 SongMASS 等强基线模型,基于 - ACLDEPLAIN: 一个德语平行语料库,具有针对句子和文档简化的纯语言内译
本文介绍了 DEplain,它是一种新的德语数据集,用于在新闻和网络领域中对句子和文档进行平行语言的写作,我们使用该数据集进行训练,使用 transformer-based 的 seq2seq 模型实现文本简化,并通过 web 收集器扩大其 - ACL并行数据有助于神经实体共指消解
本文提出了一个简单而有效的跨语言理解模型来利用平行数据中的指代知识,该模型在 OntoNotes 5.0 英语数据集上使用 9 种不同的合成平行数据集实现了一致的提升,最高可达 1.74 个百分点。
- 关于使用平行数据进行翻译质量评估的研究
本文重点研究了机器翻译的质量估计,通过对比使用不同方向的平行数据在数据增强方面的影响,发现使用原文作为源数据可以带来相对较好的效果。
- 跨语言迁移学习中平行数据的作用
本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果;使用这些数据解决一些下游任务的表现。作者发现,即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助,但目前最佳结果仍然来 - ACL多语种文本风格转换的语言和任务自适应多语种预训练
本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换,使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外,考虑到平行数据的普遍稀缺性,我们提出了一个模块化方法,包括两种针对语言和任务适应的训练策略,实现竞争 - EMNLP跨语言中间微调改进对话状态跟踪
该论文提出了一种在预训练多语言模型之间进行跨语言传递学习的方法,通过中间微调预训练的多语言模型,使其适用于不同但相关的数据和 / 或任务,以提高对话系统的性能。
- EMNLP双向训练优化神经机器翻译
通过双向的预训练策略,将神经机器翻译模型从'src -> tgt' 朝向'src + tgt -> tgt + src' 方向进行更新,成功地提升了神经机器翻译在 15 项任务上的表现,具有更好的双语对齐。
- EMNLP神经诗歌翻译实证研究
本文旨在探索机器翻译在诗歌翻译方面的应用,研究并比较了诗歌和非诗歌语料库大小、双语和多语言学习、以及使用语系特定模型和混合多语言模型的效果,得出多语言微调在诗歌翻译中具有重要性和优越性。
- PARADISE:利用平行数据进行多语言序列到序列预训练
该研究介绍了 PARADISE 方法,通过将多语言字典和平行语料库用于训练模型的噪声序列中,取得了与其他模型相当、计算成本更低的 2.0 BLEU 点平均提升和 6.7 准确度点的跨语言自然语言推理和机器翻译实验结果。
- ACLnmT5 - 预训练大规模多语言语言模型是否仍需使用平行语料?
本文研究了在 mT5 预训练模型中加入平行数据对其性能的影响,结果表明:在预训练期间将多项任务结合进行语言建模,特别是机器翻译等目标任务,可以明显提高其在多语种和跨语种任务中的性能,但随着模型容量的增加,收益开始减少,这表明平行数据对较大的 - CVPR使用手语回译的单语数据提高手语翻译
本研究提出了一种标志性的回译(SignBT)方法,利用大规模口语文本来协助手语翻译(SLT)的训练。此外,我们还发布了一个大规模的连续 SLT 数据集 CSL-Daily,提供口语翻译和注释。通过提出的回译方法,我们实现了对先前 SLT 方 - 感谢 BART!奖励预训练模型改善正式风格转换
此篇研究发现在有限的平行数据下,fine-tuning 预训练的 GPT-2 和 BART 语言模型可提高对形式的样式转换模型中内容保留的成功率,并加以奖励促进模型对形式和内容两个核心方面的提高,从而实现了新的最高水平。
- 子词分词和单桥语言对零样本神经机器翻译的影响
研究了多语言零 - shot 机器翻译中的稳定性问题,发现语言特定的次词分割会提高翻译性能,单独的中间语言反而降低零 - shot 翻译表现,但是 在 非英语语言配对中使用少量的平行数据可以有效减少对英语的偏见。
- ACL无监督跨语言学习需要更严谨的方法
本文回顾了无监督跨语言学习的动机、定义、方法和方法,并呼吁对每个方面进行更严格的立场。本研究的现有基础是基于世界上许多语言缺乏平行数据的事实。然而,我们认为实践中不存在不需要任何平行数据而有丰富单语数据的情况。本文还讨论了以前使用的不同训练 - EMNLPSimAlign: 使用静态和上下文嵌入实现高质量的单词对齐,无需并行训练数据
本文提出了一种无需平行数据就能进行词对齐的方法,基于多语言词嵌入,可以用于统计和神经机器翻译以及跨语言注释投影等任务。结果表明,使用词嵌入创建的对齐效果比传统统计对齐器效果更好,即使是在有丰富的平行语料的情况下。