Jul, 2023
Okapi: 指令调整的多语言大型语言模型及基于人类反馈的强化学习
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback
Viet Dac Lai, Chien Van Nguyen, Nghia Trung Ngo, Thuat Nguyen, Franck Dernoncourt...
TL;DROkapi 是第一个基于 RLHF 进行多语言指导调整的系统,引入 26 种不同语言的指导和回应排序数据,以促进未来多语言 LLM 研究的实验和发展。