Jun, 2024

在线多智能体流量联合微调

TL;DR在线联合微调流程的方法适用于复杂问题的解决方案生成,通过模拟器访问提供对决策的偏好,适用于多跳 QA 数据集 Musique 并取得最新成果。