Sep, 2023

来自人工智能反馈的内在动机

TL;DRMotif 是一种基于大型语言模型(LLM)的方法,通过最大化内在奖励来训练代理程序,实现从先验知识中提取环境决策并探索复杂环境的能力,在挑战性的 NetHack 游戏中取得了优异表现并在无需演示的任务上取得了突破。