Mar, 2023

通过人类反馈解决模糊任务:MineRL BASALT 2022 比赛回顾

TL;DR通过在 Minecraft 中举办的 MineRL BASALT 比赛,我们旨在推动使用人类反馈来学习期望行为的算法的发展,以便在基础模型的微调方面进行研究。我们描述了比赛,并概述了前几名解决方案。最后我们讨论了比赛的影响和未来的改进方向。