Jul, 2024

M2QA:多领域多语言问答

TL;DR通过引入多领域多语言问题回答基准M2QA,并利用其探索经过微调的模型、最新最先进的LLM的跨语言跨领域性能,以及研究模块化方法对领域和语言进行适应,我们发现模型类别内在领域-语言组合上具有相当大的性能差异,并且在所有模型规模上源语言-目标语言/领域组合之间存在显著的性能下降。我们证明了M2QA并未得到完全解决,需要新的方法来有效地传递语言和领域特定信息。