BriefGPT.xyz
Sep, 2024
为多语言推理修剪多语言大型语言模型
Pruning Multilingual Large Language Models for Multilingual Inference
HTML
PDF
Hwichan Kim, Jun Suzuki, Tosho Hirasawa, Mamoru Komachi
TL;DR
本研究针对多语言大型语言模型(MLLMs)在非英语语言中的表现差距进行探讨,提出通过分析多语言模型的翻译行为来加强其零-shot学习能力。研究表明,保留与大幅度特征相关的权重并修剪其他权重的方法,可以显著提升MLLMs在非英语语言任务中的表现,展示了该方法的潜在影响。
Abstract
Multilingual
Large Language Models
(MLLMs), trained on
Multilingual
balanced data, demonstrate better
→