Jul, 2024

回答、组装、精通:理解变换器如何回答多项选择问题

TL;DR本研究解决了变换器语言模型在多项选择问答(MCQA)中的表现差异问题,尤其是在任务格式略有变化的情况下。通过词汇投影和激活修补方法,研究揭示了模型在预测正确答案时关键隐藏状态的作用,并指出特定中间层及其多头自注意机制对答复的预测具有因果关系,揭示了不同模型在处理替代符号时的调整差异。该工作对理解和改善MCQA能力具有重要影响。