EMNLPOct, 2023

打破语言障碍:通过结构化自注意力提升跨语言推理

TL;DR本研究探讨了多语言语言模型(MultiLMs)在针对不同语言推理时,是否能够将逻辑推理能力转移到其他语言。通过在两种方案中评估 MultiLMs 的跨语言推理能力,我们发现在单语言设置下,MultiLMs 可以在语言之间传递推理能力,但在混合代码推理的情况下,它们很难传递推理能力。基于此观察,我们提出了一种新颖的注意机制,利用专门的参数集在混合代码序列中鼓励跨语言注意力,从而在 RuleTaker 和 LeapOfThought 数据集上分别将推理性能提高了 14% 和 4%。