Jun, 2024

OCALM:基于语言模型的对象评估

TL;DR使用OCALM从自然语言任务描述中提取内在可解释的奖励函数,帮助强化学习代理从任务描述中推导策略。