Nov, 2023

语言模型中的循环学习:数据优化方法在文本游戏中进行推荐行为的学习

TL;DR通过更新大型语言模型(LLMs)在基于文本游戏学习过程中的使用以减少对人类注释游戏的依赖性,提高 LLMs 的性能,并研究了从游戏中训练的模型到其他游戏的可迁移性。