mBBC: 探索多语迷宫
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面,并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外,还探讨了不同模型类型的独特特征,包括仅编码器模型、仅解码器模型和编码器 - 解码器模型。同时,还讨论了多语言大型语言模型的一个重要局限性,即多语言之间的相互影响问题,并探究了克服这一问题的当前尝试。
Jun, 2024
本文研究了 Multilingual BERT 在多种语言下的性能表现,特别是在对低资源语言的表示质量方面的评估,结果表明 Monolingual BERT 和 mBERT 相比差距较大,而解决这个问题的关键在于更有效的预训练技术或更多的数据。
May, 2020
本文介绍了两种自回归 GPT 类模型,使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索,展示了多种任务上的表现,包括分类、生成、序列标记和知识探测,在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。
Apr, 2022
探讨预训练多语言语言模型的组公平性,通过创建一个新的平行洞察测试实例的多语言数据集(MozArt)及使用人口统计信息来评估三种多语言模型(mBERT,XLM-R 和 mT5),我们发现这三种模型在四种目标语言中表现出不同程度的组不公平性,例如在西班牙语中表现出接近相等的风险,但在德语中表现出高水平的不平等。
Oct, 2022
通过对 GPT 和 T5 模型进行跨语言分类,本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本,且在跨语言预测方面表现显著优于随机预测,并与现有的最先进的跨语言模型具有竞争力。
Sep, 2021
本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异,探讨了 LLMs 的跨语言概括现象,结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。
May, 2023
本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战,并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中,本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。
Apr, 2023
通过在 100 种语言上使用超过 2TB 的 CommonCrawl 数据对基于 Transformer 的掩蔽语言模型进行大规模的预训练,该模型命名为 XLM-R,显著优于 mBERT,在跨语言基准测试中实现了 + 14.6%和 + 13%的平均准确性和 F1 分数,并改善了 10 个低资源语言的准确性,显示了前景。
Nov, 2019