M2D2:一种大规模多领域语言建模数据集
通过引入多领域多语言问题回答基准 M2QA,并利用其探索经过微调的模型、最新最先进的 LLM 的跨语言跨领域性能,以及研究模块化方法对领域和语言进行适应,我们发现模型类别内在领域 - 语言组合上具有相当大的性能差异,并且在所有模型规模上源语言 - 目标语言 / 领域组合之间存在显著的性能下降。我们证明了 M2QA 并未得到完全解决,需要新的方法来有效地传递语言和领域特定信息。
Jul, 2024
通过研究两个大型语言模型 CodeT5 和 Codex 在代码领域外具有的一般化能力,我们发现多任务学习与少许训练数据的微调相结合的方法能够很好地适应不同域的代码摘要和生成需求。
Mar, 2023
本研究旨在探究利用领域自适应预训练的方法,结合多语言语料库来同时训练一个领域特定和多语言的语言模型,从而提高目标领域内不同语言任务的文本建模能力。研究结果表明,用这种模型在生物医学命名实体识别和金融句子分类等多个领域特定数据集上进行测试,可以比一般的多语言模型表现更好,接近于单语言情况下的性能表现。
Sep, 2021
本文提出一种双重迭代领域自适应框架,通过多层反向翻译知识传输来提高公共领域的翻译知识的提取效果,并通过将这种转移策略应用于多个不同相似度的领域进行了验证。该框架在中英文和英德文翻译任务中取得了令人满意的实验结果。
Dec, 2019
本文提出了基于源域自监督的 M2DS2 策略用于大型预训练语音模型的微调,并在希腊语 ASR 系统中测试表现,结果显示相比其他基准线算法,M2DS2 在跨域适应中具有显著优势。
Dec, 2022
本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法,通过该方法,配合回译技术,可生成大量合成双语的领域内数据,从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。
Aug, 2022
本文提出了一种无监督的自适应方法,使用伪域内语料库通过微调预先训练的域外 NMT 模型,借助词典诱导提取域内词汇,并通过针对性的单语域内目标句子进行逐词反向翻译构建伪平行域内语料库,在 20 对自适应设置和两种模型架构的五个领域中,我们的方法始终显示出提高,而不需要使用任何域内平行句子,改进了未经过调整的模型高达 14 BLEU 和强反向翻译基线的最高 2 BLEU。
Jun, 2019
本文讨论了如何在多领域和多语言神经机器翻译 (MDML-NMT) 中跨语言传输领域信息,以提高零样本翻译性能和帮助域缺失的多领域 NMT 的泛化。通过组合多语言和多领域 NMT 及添加编码器目标语言标签等有效策略,实现了学习到有针对性的表示和提高性能的目的。
Oct, 2022
本文针对神经机器翻译中的无监督领域自适应问题,提出一种跨语料库数据选择方法,通过对多语言 BERT 进行对比学习,实现源语言和目标语言之间的表示对齐,从而实现零样本领域分类器的可转移性,并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估,并在 COVID-19 疫情实时翻译中进行了应用验证, 实验结果表明,我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。
Sep, 2021
在真实世界中,语言模型在超出分布范围的场景中的泛化能力变得更低,基于提示的微调方法在语义差异较大的任务中表现更好,而基于梯度的学习存在结构障碍的偏差问题。
Sep, 2023