Jan, 2024

MAPO:通过多语言对齐优化推进多语言推理

TL;DR通过采用一种对齐作为优选优化框架,我们在非中心语言中提高了推理能力,推理一致性得到了改善,并通过迭代 DPO 进一步优化了模型的多语言数学推理能力。