Nov, 2023
语言模型中的循环学习:数据优化方法在文本游戏中进行推荐行为的学习
Language Model-In-The-Loop: Data Optimal Approach to Learn-To-Recommend Actions in Text Games
Arjun Vaithilingam Sudhakar, Prasanna Parthasarathi, Janarthanan Rajendran, Sarath Chandar
TL;DR通过更新大型语言模型(LLMs)在基于文本游戏学习过程中的使用以减少对人类注释游戏的依赖性,提高 LLMs 的性能,并研究了从游戏中训练的模型到其他游戏的可迁移性。