多语言模型在代码交错中有效吗?
本文通过大量实证研究探索了多语言大型语言模型在涉及语种切换的情况下情感分析、机器翻译和单词级别语言识别等任务的表现。研究显示,虽然这些模型在使用零 / 少量提示时在某些任务中表现出色,但与较小的微调模型相比,它们的性能仍然有所不适。因此,研究者认为未来需要进一步研究来完全弥合这一差距。
May, 2023
通过对比多个 LLM 模型,在机器翻译任务中,我们发现相对较简单的模型性能优于多语言大型语言模型,表明多语言大型语言模型在上下文代码切换方面的有效性受到训练方法的限制。与之相反,当相对较小的模型在定制的数据集上进行训练和微调时,可能会产生更好的结果。
Dec, 2023
本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究,揭示了预训练语言模型在泛化到混合语言文本上的有效性,从而为这些模型在处理混合语言资源方面的能力提供了洞察。
Mar, 2024
本文提出了一种针对双语混杂文本的语言模型的新方法,即双语言模型,该方法使用单一语言模型的结构来改进标准的双语言模型,并将两个互补的单一语言模型结合在一起,以概率切换模型进行切换。我们使用一种会话式汉英语音语料库评估了该方法的有效性,并证明了我们的模型的鲁棒性,表明在不使用任何外部信息的情况下,在困惑度措施和自动语音识别错误率方面都会显著提高。
Nov, 2017
本文评估了一个大规模多语言神经机器翻译模型编码器在五个跨语言分类和序列标记任务中的跨语言效果,并展示了零 - shot 转移学习中在四个任务中的增益。
Sep, 2019
通过元迁移学习的新学习方法提取高资源单语数据信息,条件化优化混合语音识别数据,从而在低资源环境下实现混合语音识别,实验结果表明,我们的模型在语音识别和语言建模任务方面优于现有基线模型,并且收敛速度更快。
Apr, 2020
本研究提出了一种基于多任务学习的语言模型,其共享语言的语法表示,从而利用语言学信息并解决低资源数据问题,通过同时学习语言建模和语音标记来识别代码切换点的位置并改进下一个词的预测,实验表明该方法在 SEAME Phase I 和 Phase II 数据集上的困惑度分别提高了 9.7% 和 7.4%,优于基于标准 LSTM 的语言模型。
May, 2018
通过研究多语言模型的语言学表示,我们发现针对低资源语言,以某个语言家族或地理位置为重点且由这些语言使用者构建的社区中心模型在区分同一语言家族的语言方面表现更好,有助于理解多语言模型的问题并提供改进方法。
Oct, 2023
本文提出一种方案,使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移,以改进跨语言学习的性能,实验结果表明,我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能,进一步的结果证明了 meta-learning 的能力。
Jul, 2022
通过评估六种最先进的大型语言模型在跨语言任务上的表现,本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力,但在更深层次的跨语言知识转移上存在困难,揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法,有效减少了这些差距,甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。
Jun, 2024