Sep, 2024

为多语言推理修剪多语言大语言模型

TL;DR本研究针对多语言大语言模型(MLLMs)在非英语语言上的零-shot学习性能差距问题,提出了一种利用模型在翻译中的对齐能力来增强其非英语语言性能的新方法。研究发现,与翻译过程相关的大幅度特征对模型表现至关重要,通过保留这些特征的权重并修剪其他权重,实验证明这种修剪策略能有效提升MLLMs在非英语语言上的表现。