Aug, 2024

来自人类反馈的跨形态奖励学习的表示对齐

TL;DR本研究解决了跨形态逆强化学习中从混合质量示范学习奖励函数的问题。我们提出通过人类反馈来改进表示学习和对齐的方法,以便更有效地进行跨形态学习。研究结果表明,不同的表示学习技术会导致奖励塑造行为的显著差异,而人类反馈在处理混合质量和混合形态的数据时至关重要。