- EMNLP无监督的上下文增强词汇简化
我们提出了一种基于无监督学习的词汇简化方法,仅使用单语数据和预训练语言模型。根据目标词和其上下文,我们的方法基于目标上下文和从单语数据中抽样的附加上下文生成替代词。我们在 TSAR-2022 共享任务的英语、葡萄牙语和西班牙语上进行实验,并 - 美洲土著语言的神经机器翻译:介绍
介绍了用于低资源语言机器翻译的神经模型的挑战、概念和技术,最后讨论了 NLP 社区对这些语言的兴趣所带来的最新进展和发现。
- ACL改进神经机器翻译的语言模型集成
本文探讨使用外部语言模型和针对内部隐式语言模型所采用的方法,在神经机器翻译任务中在线性融合语言模型方面的性能表现,发现考虑隐式语言模型可极大提高模型性能,但背向翻译仍然是最有效的方法。
- 单语数据何时对多语言翻译有帮助:领域和模型规模的作用
通过实验研究了多种语言机器翻译在不同数据条件和模型尺度下,去噪自编码器和回译技术对多种语言机器翻译的影响、以及单语数据在多种语言机器翻译中的作用和数据规模对机器翻译的影响等问题。结果发现单语数据总体有益于机器翻译,但在小型模型中对领域不匹配 - ACL语言识别的开放数据集和模型
该研究提出了一种基于单语数据训练的语言识别模型,其在 201 种语言上的宏平均 F1 得分为 0.93,而误报率为 0.033,将先前工作的表现远远超过。我们对数据集进行了精心筛选,通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和 - ACL无需文本的语音转文本反向翻译
采用自监督离散单元并将目标语言数据转化为人工翻译的语言模拟数据的 back translation for speech-to-text translation(BT4ST)方法,可有效解决资源不足情境下进行端到端语音转文本翻译的问题。
- 机器翻译中的大型语言模型:案例研究
通过系统研究提示策略,我们填补了机器翻译领域中提示还未得到充分探索的空白区域,证明了使用优质的提示样本能够有效地提高机器翻译的性能。
- AAAI通过单语数据提高同时机器翻译的效果
该研究提出并探索了使用单语数据来提高同时机器翻译的质量,并提出了新的单语抽样策略,以避免 SiMT 中的幻觉问题,实验表明新策略可以显著提高翻译质量。
- 减少端到端语种混淆的自动语音识别
本文基于等价约束理论提出了一种语言相关的注意机制,将单语数据转化为多语数据应用于端到端的自动语音识别中,获得了相对误差减少 17.12% 的优异性能。
- EMNLP去噪适配器的多语言无监督神经机器翻译
本文提出了一种使用去噪适配器的方法,以在没有监督数据的情况下,通过使用辅助并行语言对,将机器翻译应用于仅具有单语数据的语言。该方法的结果与反向翻译相当,并且允许逐步添加新语言。
- MM将无监督数据生成技术融入自监督神经机器翻译中,以应对低资源语言
本文介绍了一种将无监督机器翻译和自监督 NMT 相结合的方法,该方法利用合成数据生成技术和 back-translation 的方法提高 SSNMT 的性能,特别是在缺乏语言对数据的情况下可以对距离较远的语言对进行翻译。
- IJCAI低资源神经机器翻译调查
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和 / 或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从 - ACLAUGVIC:利用双语邻域推进低资源 NMT
提出了 AUGVIC 框架,用于低资源 NMT 中的数据增强,通过对给定的双语数据的 vicinal sample 进行扩充,广泛的实验证明其与使用额外的单语数据的传统回译方法相当。
- ACL利用单语数据不确定性的自训练采样在神经机器翻译中的应用
本文提出了一种基于不确定性采样的自训练方法,通过选择最具信息价值的单一语言句子来补充平行数据,以提高 NMT 的性能,在大规模数据集上进行实验证明了这种方法的有效性,并表明该方法能够提高翻译质量和预测低频单词。
- ACL将高资源 NMT 模型应用于低资源相关语言的翻译,不需要平行数据
本论文研究如何使用语言重叠来进行翻译,在仅有少量单语数据的情况下,结合去噪自编码、回译和对抗性目标,提出了一种名为 NMT-Adapt 的方法,实现了对低资源语言的翻译的提高。
- ACL无监督多语言句子嵌入用于平行语料挖掘
本研究提出了一种新的无监督方法,通过使用单语数据来获得跨语言句子嵌入,产生了合成平行语料库,使用预训练的跨语言掩码语言模型(XLM)对其进行微调以得到多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量,结果表明,这种方法可以比基准 - ACL通过词汇替换实现多语言机器翻译的连续学习
本研究提出了一种简单的词汇适应方案,以扩大多语言机器翻译模型的语言容量,为多语言机器翻译的高效连续学习铺平了道路。我们的方法适用于大规模数据集,适用于未见过脚本的远程语言,在原始语言对的翻译性能上只有轻微的降低,在仅拥有新语言的单语数据的情 - Facebook AI 的 WMT20 新闻翻译任务提交
本篇研究介绍了 Facebook AI 对 WMT20 共享新闻翻译任务的参赛,主要关注于资源有限的环境中,用多种策略和技术如自监督模型预训练、多语言模型、数据增强、标签数据微调等,以对目标新闻领域适应来应对低资源问题。在测试集上,我们的最 - ACL跨语言摘要的混合语言预训练
使用混合语言预训练的交叉语言文摘模型,在没有任务特定组件的情况下利用单语数据提高语言建模的效果,实现了高效的跨语言文摘。在 Neural Cross-Lingual Summarization 数据集中,我们的模型在英汉和汉英模式下相比现有 - EMNLP多语言神经机器翻译的多任务学习
提出了一种基于多任务学习的框架,通过对单语数据的两个去噪任务和双语数据的翻译任务联合训练模型,显著提高了多语言 NMT 系统的翻译质量,并在零样本学习的情况下证明了该方法的有效性。