所有语言的语言模型难度是否相同?
使用一个多语言圣经语料库,通过引入新的配对样本混合效应模型,扩展先前工作以涵盖 13 种语系的 69 种语言,并试图回答困难语言的共同特征问题,结果发现语言的翻译版与本地写作语言一样难以建模。
Jun, 2019
探讨预训练多语言语言模型的组公平性,通过创建一个新的平行洞察测试实例的多语言数据集(MozArt)及使用人口统计信息来评估三种多语言模型(mBERT,XLM-R 和 mT5),我们发现这三种模型在四种目标语言中表现出不同程度的组不公平性,例如在西班牙语中表现出接近相等的风险,但在德语中表现出高水平的不平等。
Oct, 2022
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
研究探讨了 NLP 工具在不同语言的应用情况以及针对语言结构差异进行的分析,指出哪些变量最影响语言建模的效果,通过计算词序和形态相似性指数等方法进行实证研究,最后通过多分类文本分类实验验证了研究结论。
Apr, 2020
我们提出了一个替代方法来量化语言模型学习自然语言的程度:我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向,提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向,但与经验性趋势相比,更接近所提出的理论分布(当存在时)。此外,对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子,使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系;LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。
May, 2021
通过研究多语言模型的语言学表示,我们发现针对低资源语言,以某个语言家族或地理位置为重点且由这些语言使用者构建的社区中心模型在区分同一语言家族的语言方面表现更好,有助于理解多语言模型的问题并提供改进方法。
Oct, 2023
通过对 GPT 和 T5 模型进行跨语言分类,本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本,且在跨语言预测方面表现显著优于随机预测,并与现有的最先进的跨语言模型具有竞争力。
Sep, 2021
该研究通过分析数据集,探讨了大型语言模型在回答非英语母语使用者的问题时是否会产生性能偏差,结果发现与母语使用者相比,非英语母语使用者在与语言模型的互动中会获得更低质量甚至事实错误的回答。
Jun, 2024
本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异,探讨了 LLMs 的跨语言概括现象,结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。
May, 2023