Jul, 2023

Okapi: 指令调整的多语言大型语言模型及基于人类反馈的强化学习

TL;DROkapi 是第一个基于 RLHF 进行多语言指导调整的系统,引入 26 种不同语言的指导和回应排序数据,以促进未来多语言 LLM 研究的实验和发展。