Mar, 2025

ReMA:通过多智能体强化学习学习元思维的语言模型

TL;DR本研究解决了现有大型语言模型(LLMs)中元思维获取设计不足的问题,导致推理过程效果不佳。通过引入强化的元思维智能体(ReMA)框架,采用多智能体强化学习策略,模型能够更有效地监控和控制推理过程。实验结果表明,ReMA在复杂推理任务中显著优于单智能体的强化学习基线,提高了通用性和鲁棒性。