Jun, 2024

大型语言模型是跨语言无领域知识的推理者

TL;DR跨语言能力:大型语言模型在不同语言的推理任务中展示出令人印象深刻的推理能力。本研究将推理任务分解为两个独立的部分:知识检索和无知识推理,并分析它们的跨语言可迁移性。通过适应和构建无知识推理数据集,我们展示了无知识推理能力可以在各种资源中几乎完全可转移,尽管在某些特定目标语言中存在资源的次要影响,而跨语言知识检索显著阻碍了迁移。此外,通过分析推理任务中的隐藏状态和前馈网络神经元的激活,我们展示了隐藏表示的更高相似性和激活神经元的更大重叠可以解释无知识推理比知识检索具有更好的跨语言可迁移性。因此,我们假设无知识推理嵌入了某种语言共享的机制,而知识则分别存储在不同的语言中。