Sep, 2024

为多语言推理修剪多语言大型语言模型

TL;DR本研究针对多语言大型语言模型(MLLMs)在非英语语言中的表现差距进行探讨,提出通过分析多语言模型的翻译行为来加强其零-shot学习能力。研究表明,保留与大幅度特征相关的权重并修剪其他权重的方法,可以显著提升MLLMs在非英语语言任务中的表现,展示了该方法的潜在影响。