Sep, 2024

自适应语言引导的对比解释抽象

TL;DR本研究解决了当前机器人学习中从人类示范推断奖励函数的特定问题,特别是如何有效识别环境相关特征。提出的ALGAE方法通过将语言模型与传统逆强化学习技术相结合,能够在少量示范中学习出可解释的、通用的奖励函数,显著提升了学习效率和效果。关键发现是,ALGAE可以自主识别缺失特征并加以定义,为快速获取用户行为的丰富表示提供了可能。