MixMT 2022 的混合语机器翻译领域课程
本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究,揭示了预训练语言模型在泛化到混合语言文本上的有效性,从而为这些模型在处理混合语言资源方面的能力提供了洞察。
Mar, 2024
本研究探讨了多语言神经机器翻译模型处理语种混杂文本的能力,提出了一种检测方法和简单有效的数据增强方法,同时通过对注意力模块的分析证明了这些方法的有效性。
Oct, 2022
本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法,通过该方法,配合回译技术,可生成大量合成双语的领域内数据,从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。
Aug, 2022
本文研究如何使用深度学习方法提高混合语言识别的准确性,提出了包括使用 Residual CNN+GRU 模型,以及使用自动语音识别(ASR)作为辅助任务的多任务预训练方法等两种有效方法,并且通过使用单语语料库以及数据上采样等方法来创造真正的混合语言数据集,最终实验结果显示,本文提出的模型在英汉混合语言语音识别准确度上超过了之前的基准模型约 55.3%。
May, 2023
本篇论文旨在探究作为一种语言现象的码代码搭配和混合情感分类在领域转移学习和多语言模型中的应用,通过测试 ERNIE 单一语言模型和对抗训练得到了强的基线和对 2020 SemEval 竞赛中印度 - 英语情感分类任务第一名的表现。
Sep, 2020
通过对比多个 LLM 模型,在机器翻译任务中,我们发现相对较简单的模型性能优于多语言大型语言模型,表明多语言大型语言模型在上下文代码切换方面的有效性受到训练方法的限制。与之相反,当相对较小的模型在定制的数据集上进行训练和微调时,可能会产生更好的结果。
Dec, 2023
本文展示了一种简单的初始化方案,用于克服跨语言转移中不同领域的影响,通过在领域不匹配的语料库上预训练词和上下文嵌入,然后用于多个任务中,包括 UBLI、UNMT 和 SemEval 2017 跨语言词汇相似性任务,挑战了之前的研究论文并指出,在适当初始化的情况下可以恢复由于域不匹配而产生的损失。
Nov, 2022
本文研究围绕语内码混杂问题,提出了多种合成混杂数据方法,在各种数量的标注黄金数据中,在下游情感分析任务上表现出色。最重要的是,我们的方法表明,用定量掩码替换矩阵语言句子的部分内容可以显著提高分类准确性,这激发了对码混杂现象的进一步语言学洞察。我们在各种低资源和跨语言设置中测试了数据增强方法,在极度缺乏英马拉雅语的数据集上获得了高达 7.73%的相对改进。最后,我们提出了一种语言不可知的 SCM 算法,对低资源语言非常有用。
Nov, 2022
本文提出了一种无监督的自适应方法,使用伪域内语料库通过微调预先训练的域外 NMT 模型,借助词典诱导提取域内词汇,并通过针对性的单语域内目标句子进行逐词反向翻译构建伪平行域内语料库,在 20 对自适应设置和两种模型架构的五个领域中,我们的方法始终显示出提高,而不需要使用任何域内平行句子,改进了未经过调整的模型高达 14 BLEU 和强反向翻译基线的最高 2 BLEU。
Jun, 2019