评估大型语言模型在语言变异维度上的性能：一项跨语言泛化的系统性调查

Jun, 2024

评估大型语言模型在语言变异维度上的性能：一项跨语言泛化的系统性调查

Evaluating Large Language Models along Dimensions of Language Variation: A Systematik Invesdigatiom uv Cross-lingual Generalization

PDF

Niyati Bafna, Kenton Murray, David Yarowsky

TL;DR大语言模型在面对未知的相关语言和方言时会表现出性能下降现象，本论文通过对语言距离的建模和分析，提供了关于模型健壮性和任务特性对性能下降的洞察，为评估和缓解性能下降问题提供了便利

Abstract

While large language models exhibit certain cross-lingual generalization capabilities, they suffer from performance degradation (PD) on un

large language models performance degradation cross-lingual generalization linguistic distances task performance

发现论文，激发创造

跨语言声学 - 语音相似度对多语种语音识别的影响研究

本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性，通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式，并通过熵分析发现少重叠语音的语言更易于跨语言传输，在融合单语言模型方面取得了相对于单语言识别的 8％的改进。

Jul, 2022

估算和提高语言模型的强健性的方法

通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法，本文提出了未来改进大型语言模型鲁棒性的研究方向。

Jun, 2022

量化方言差异及其与语言之间的关联

本文通过全面评估最有影响力的最新大型语言模型（LLMs）在机器翻译和自动语音识别两个高使用频率应用领域上的功能，对多个高和低资源语言的地区方言进行了功能评估，并分析了地方方言差距与经济、社会和语言因素的相关性，从而为方言 NLP 领域的发展奠定基础，并通过有意识的数据收集，揭示明显的差异并寻找可能的解决途径。

Oct, 2023

利用词汇相似性实现极低资源语言的零 - shot 机器翻译

本篇论文讨论了如何利用字符噪声注入方法，将近乎无资源语言翻译成英文，使其更能够适应高资源语言，并在多种语言家族的紧密相关语言对中得到了显著的优异表现。

May, 2023

通过注入字符级噪声改善密切相关语言之间的零样本跨语言转移

通过在高资源语言中增加字符级噪音，我们提出了一种简单而有效的策略，以增强密切相关的语言之间的跨语言转移，从而提高 POS 标记和主题识别等任务的零样本转移能力。

Sep, 2021

神经机器翻译快速适应新语言

本文提出了針對低資源語言進行神經機器翻譯系統適應的策略，基於大規模的多語言種子模型，通過將訓練擴展到相關低資源語言數據上，與高資源語言一起進行聯合訓練，實現了相似語言正則化策略，實驗表明在 4 個低資源語言環境下，BLEU 得分平均提高了 1.7。

Aug, 2018

利用语言相关性进行低网络资源语言模型适应：印度语言研究

本文针对印度语言中不足文本资源的问题，提出了一种称为 RelateLM 的利用相关语言作为中间媒介的方法，通过音译和数据增强等技术，将限制资源语言文本转化到具备足够语料的相关语言中间站，从而提高多语言模型的适用性。

Jun, 2021

跨语言低资源形态分割中基于数据驱动的模型泛化性研究

该研究旨在通过使用多种语言的数据，比较不同参数设置下的模型表现，从而证明模型通用性取决于数据集的特征而不只是数据集的大小。

Jan, 2022

神经因子图模型用于跨语言形态标记

本研究提出了一种基于神经网络潜在能力的因子条件随机场模型，可用于语言之间的跨领域形态标注技术，在低资源语言中展现出卓越的标注准确性。

May, 2018

低资源语言的机器翻译性能预测：领域相似性的作用

对于低资源语言（LRLs）来说，微调和测试多语言大型语言模型是昂贵和具有挑战性的。我们调查了微调语料库的大小、微调和测试语料库之间的领域相似性以及源语言和目标语言之间的语言相似性对模型性能的影响，结果表明领域相似性对机器翻译模型性能的预测有最重要的影响。

Feb, 2024