Jan, 2024
MAPO:通过多语言对齐优化推进多语言推理
MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization
Shuaijie She, Shujian Huang, Wei Zou, Wenhao Zhu, Xiang Liu...
TL;DR通过采用一种对齐作为优选优化框架,我们在非中心语言中提高了推理能力,推理一致性得到了改善,并通过迭代 DPO 进一步优化了模型的多语言数学推理能力。