Sep, 2023

离线激励评估与优化

TL;DR这篇论文介绍了 Prompt-OIRL,一种根源于脱机逆强化学习的方法,它旨在弥合有效提示评估和可承受性之间的差距,验证了该方法在四个 LLM 和三个算术数据集上的有效性,并释放了代码和离线数据集。