Apr, 2025

基于大型语言模型的自动化强化学习奖励设计框架用于协作编队协调

TL;DR本研究在复杂编队协调问题中,提出了“编队协调奖励设计问题”的新定义,针对手动设计奖励函数的挑战,提出了一种基于大型语言模型的自动化奖励设计框架。通过该框架可以系统地自动发现奖励函数,相较于传统的人为设计,实验结果表明,采用该方法生成的奖励函数在多个复杂场景下能够提高10%的性能指标。