self-play training | BriefGPT

关键词self-play training

搜索结果 - 4

自主对抗性语言游戏增强 LLM 推理能力
在一个叫做 Adversarial Taboo 的对抗性语言游戏中，我们探索了大型语言模型（LLMs）的自我训练过程。通过强化学习和自我博弈，我们观察到 LLMs 在广泛的推理基准上表现出统一的提升，并且通过迭代采用自我博弈过程可以不断提升
PDF3 months ago
OpenRL：一种统一的强化学习框架
OpenRL 是一个先进的强化学习框架，可以适应各种任务，从单智能体挑战到复杂的多智能体系统。它与自然语言处理（NLP）集成，使研究人员能够有效地处理强化学习训练和以语言为中心的任务的组合。通过借助 PyTorch 的功能，OpenRL 展
PDF7 months ago
多智能体强化学习通用的行为处理 (RPM)
本文设计了一个基于自我博弈的新型强化学习方法，称为 RPM，通过在多智能体强化学习中维护一种策略记忆，在训练 MARL 代理时收集多样化的多智能体轨迹，大幅提升了其泛化能力，可在未知的多智能体评估场景中完成任务，且性能平均提升了 402％。
PDF2 years ago
零样本人工智能协同的最大熵基于人口训练
本文提出了一种通过最大熵种群训练（MEP）来训练 RL 系统的方法，以促进代理系统间的多样性和个体代理自身的多样性，并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中，与自我游戏 PPO（SP）等方法进行比较，我们证明了
PDF3 years ago