通过机器翻译和跨语言转移在捷克语阅读理解
研究了在英文大规模数据集中预训练的多语言 BERT Fine-Tuning 在保加利亚语阅读理解中的效果,构建了一个新的包含历史、生物、地理和哲学等学科的 12 年级毕业考试和 412 个在线历史测验问题的数据集,并利用不同的索引和预训练策略进行实验,评估结果表明,准确率为 42.23%,大大超过了基线水平 24.89%。
Aug, 2019
提出了面向非英语语言的跨语言机器阅读理解(CLMRC)任务,通过双向 Bert 模型和回译方法,利用英语作为基础语言的大规模训练数据来提高低资源语言的阅读理解性能,并在中文机器阅读理解数据集上进行了实验,结果表明该方法能够显著提高机器阅读理解的性能。
Sep, 2019
本文系统性地探讨了在多语料库上预训练语言表示模型的情况下,零 - shot 跨语言转移学习在阅读理解任务中的应用,并通过实验结果表明,使用预训练的语言表示模型可以实现零 - shot 学习,无需将源语言数据转换为目标语言,因为这样做甚至会降低模型的性能。研究还进一步探讨了模型在零 - shot 情况下的学习效果。
Sep, 2019
本文提出了一种新的跨语言机器阅读理解方法 X-STA,利用关注力机制和知识共享技术实现源语言答案转移到目标答案空间,并通过语义对齐和教师引导来增强跨语言迁移能力,实验证明了该方法在多种多语言机器阅读理解数据集上的有效性。
Nov, 2023
本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器,我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输,其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下,我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。
Jun, 2023
本文介绍在 WMT19 共享任务中,我们采用 Transformer 模型和 document-level 训练方式,用于英捷克翻译,以提高翻译文件的充分性和连贯性。
Jul, 2019
本文论述了跨语言零 - shot 迁移的问题,并通过对 XLM-RoBERTa 进行实验,研究机器阅读理解、情感分析和句子嵌入对跨语言迁移的影响。发现跨语言迁移在语义文本相似度检验(STS)中表现最强,情感分析次之,机器阅读理解中表现最弱。
Jan, 2021
本研究提出一种基于注意力机制的神经机器翻译模型,将源语言(非英语)数据经过翻译转化为目标语言(英语),在英语翻译数据上训练阅读理解模型,在目标语言中生成答案并通过软对齐注意力机制将目标语言中的答案还原回源语言,并且实验表明,我们的方法明显优于最先进的机器翻译系统的回译基线方法。
Sep, 2018
本文提出了一种名为 LBMRC 的创新增强方法和一种多语言蒸馏方法,共同提高跨语言转移性能,并且可以更加鲁棒地处理数据噪声,同时我们在两个 CLMRC 基准测试上进行了广泛的实验并验证了我们的方法的有效性。
Oct, 2020